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， 同 时 剖析 了 大 数据 环境 下 的 隐私 和 安全 问题 。 
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随 着 互联 网 和 信息 技术 的 快速 发 展 ， 大 数据 逐渐 成 为 人 们 关注 的 焦点 。 我 国 高 度 
视 大 数据 的 发 展 与 应 用 ， 目 前 已 出 台 了 多 份 国家 级 文件 ,涵盖 金融 业 、 物 流 业 和 制造 + 
等 多 个 行业 及 政务 公开 、 审 计 、 简 政 放权 等 多 个 重要 和 领域。 全球 知 名 管理 咨询 公司 
麦肯锡 称 : “大 数据 已 经 渗透 到 当今 每 个 行业 和 业务 职能 领域 ， 成 为 重要 的 生产 因素 。 
在 当前 大 数据 浪潮 的 猛烈 冲击 下 ， Re 掌握 全 新 的 科 


技 技能 ， 从 而 充分 利用 大 数据 ， 发 挥 其 潜在 的 价值 。 

本 书 系统 地 介绍 了 大 数据 理论 和 技术 ,详细 阐述 De 
的 相关 内 容 ， 讲 述 了 大 数据 在 不 同 领域 的 应 用 及 所 Rm 与 挑战 。 

本 书 内 容 分 4 个 部 分 共 8 章 。 AS 

第 1 部 分 为 大 数据 的 相关 概述 (第 1 2 介绍 大 数据 的 背景 、 概 念 、 特 征 和 结 
构 类 型 ， 大 数据 的 关键 技术 ES 预 处 理 、 分 析 和 存储 等 )， 以 及 大 数据 的 
发 展 和 应 用 。 Sey 

第 2 部 分 为 大 数据 的 相关 2 一 6 章 )。 种 系统 日 志 采 集 和 网 络 数 据 采 
集 等 大 数据 采集 技术 ， Wr 集成 、 变 换 和 旺 结 舍 预 处 理 技术 ， 数 据 仓 库 的 概念 、 

> 


en 
| 
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组 成 和 数据 模型 ， 年 储 技术 (包括 DAS、NAS 和 SAN 
技术 )、 分 布 式 了 大 数据 处 理 与 计算 , 分 别 对 Hadoop、 







慌 架 进行 阐述 ， 并 介绍 各 DFS、MapReduce 和 YARN。 第 5 章 介绍 


Spark 和 Sto 

ee 大 数据 分 析 常 用 的 方法 〈 包 
括 回 归 分 析 、 关 联 分 析 、 分 类 和 聚 类 )， 以 及 大 数据 分 析 的 工具 。 第 6 章 介绍 大 数据 可 视 
化 的 概念 、 起 源 和 作用 ， 基 于 图 形 、 像 素 和 平行 坐标 法 等 的 大 数据 可 视 化 技术 ， 以 及 大 
数据 可 视 化 的 常用 工具 。 

人 用 (第 7 章 )。 通 过 结合 案例 ， 介 绍 大 数据 在 金融 、 互 联 
网 、 生 物 医学 、 物 流 、 汽 车 等 领域 的 应 用 ， 并 且 分 析 了 大 数据 对 人 们 日 常生 活 的 重要 价 
信和 作用 。 

第 4 部 分 为 大 数据 的 隐私 与 安全 (第 8 章 )。 介 绍 大 数据 隐私 与 安全 的 定义 、 影 响 因 
素 和 分 类 ， 并 分 别 从 存储 、 应 用 和 管理 方面 对 大 数据 隐私 与 安全 的 防护 策略 进行 曾 述 ， 
同时 介绍 了 相应 的 防护 技术 。 

本 书 由 北京 科技 大 学 王道 平和 陈 华 担任 主编 ,负责 设计 全 书 结构 、 草 拟 写作 提纲 、 
组 织 编写 工作 和 最 后 统 稿 。 参 加 本 书 编写 工作 的 人 员 还 有 李 明 芳 、 李 锋 、 蒋 中 杨 、 宋 雨 
情 、 徐 良 越 、 李 小 燕 、 张 博 卿 等 。 




















在 编写 本 书 的 过 程 中 ,编者 参阅 了 大 量 书 籍 和 相关 资料 ， 在 此 对 各 位 作者 表示 真诚 
的 谢意 ! 本 书 的 出 版 得 到 了 北京 大 学 出 版 社 的 大 力 支 持 ,在 此 一 并 表示 衷心 的 感谢 ! 由 
于 编者 水 平 有 限 ， 书 中 难免 存在 错误 和 朴 漏 之 处 ， 奶 请 广大 读者 批评 斧 正 。 


编 者 
2019 年 7 月 





































前 言 
| 3 的 ETL 工具 35 29 
1.1 大 数据 的 背景 … 
1.1.1 互联 网 的 三 次 浪潮 ， 
1.1.2 大 数据 的 变革 思维 
1.2.1 大 数据 的 概念 ………………… 
1.2.2 大 数据 的 特征 ……… 直 连 式 存储 35 
1.2.3 大 数据 的 结构 类 型 、 全 3 网 络 存储 ， 35 
1.2.4 大 数据 的 关键 技术 ……… :2 分布 式 存储 ， 38 
1.2.5 大 数据 的 核心 产业 链 “ 3.2.1 存储 结构 38 
1.3 大 数据 的 发 展 和 应 用 ……… 3.2.2 系统 架构 … “89 
1.3.1 大 数据 的 发 展 态势 典型 系统 … 40 
1.3.2 我 国 大 数据 发 a pe 42 
问题 与 挑战 “10 云 存 储 的 结构 模型 …*……* 42 
1.3.3 大 数据 的 a 云 存储 的 分 类 43 
ei 云 存储 的 优势 和 劣势 …*… 44 
IN 云 存储 的 发 展 趋势 … 45 
第 2 章 大 数据 的 采集 和 预 处 理 …… 站 
2.1 大 数据 的 采集 15 、 
冯 1 1 类 产 氢 的 采 昌 来 源 i 第 4 章 大 数据 处 理 与 计算 ………… 48 
2.1.2 大 数据 的 采集 方法 ………… 17 4.1 Hadoop 处 理 框架 pp 48 
2.1.3 大 数据 的 采集 平台 … ”19 全 下 下 HOPS ee 49 
2.2 大 数据 的 预 处 理 技术 4.1.2 MapReduce 50 
2.2.1 数据 清洗 …… 4 VARN we .53 
2.2.2 数据 集成 4.1.4 ZooKeeper ”55 
2.2.3 数据 变换 …… 4.2 Spark 处 理 框架 …… 
2.2.4 数据 归 约 4.2.1 Scala 
2.3 数据 仓库 与 ETL 工具 25 4.2.2 Spark SQL 








2.3.1 数据 仓库 的 组 成 ”25 4.2.3 Spark Streaming 
2.3.2 数据 仓库 的 数据 模型 ……* 27 4.3 Storm 开源 流 计算 框架 ………… 62 





a 
~ 


a 
oo 


6.2 


6.3 





Storm 的 基本 概念 
Spout 和 Bolt 











Topology * 





大 数据 分 析 


大 数据 分 析 的 类 型 
5.1.1 描述 性 分 析 … 
5.1.2 探索 性 分 析 …* 
5.1.3 验证 性 分 析 … 
大 数据 分 析 的 方法 
5 和 回归 和 共 折光 
5.2.2 关联 分 析 ， 
5 








5.2.4 
大 数据 分 析 的 工具 
Excel 

i 


RapidMiner 


KNIME 

















可 视 化 概述 CEETEETTETE 
6.1.1 可 视 化 的 概念 
6.1.2 可 视 化 的 起 源 
6.1.3 可 视 化 的 作用 
大 数据 可 视 化 的 技术 … 
6.2.1 基于 图 形 的 可 视 化 技术 
6. 2.2 基于 平行 坐标 法 的 可 视 化 
技术 人 
6. 2.3 ”其 他 大 数据 可 视 化 技术 
大 数据 可 视 化 的 工具 
6.3.1 人 门 级 工具 “ 
6. 3.2 信息 图 表 工 具 














总 


6.4 


小 结 
习题 


RC 


7.4 


小 结 


6.3.3 
6. 3.4 
6.3.5 高 级 分 析 工 具 …“” 
大 数据 可 视 化 的 发 展 …… 

















6.4.1 大 数据 可 视 化 面临 的 

挑战 101 
6.4.2 大 数据 可 视 化 的 发 展 

方向 102 
6.4.3 大 数据 可 视 化 未 来 的 

应 用 
大 数据 在 金融 领域 的 应 用 …… 05 
7.1.1 大 数据 与 客户 管理 …… 05 
7.1.2 大 数据 与 风险 管控 …*…* 08 
7:,3 ”大 数据 与 运营 优化 ……* 11 

E 互 联网 领域 的 应 用 ……” 12 

7:2.1 大 数据 与 电子 商务 ……* 12 
7.2.2 大 数据 与 社交 媒体 “…… 16 
7.2.3 大 数据 与 零售 行业 ……* 17 
大 数据 在 生物 医学 领域 的 应 用 19 
7.3.1 大 数据 与 流行 病 预 测 19 
7.3.2 大 数据 与 智慧 医疗 …… 21 
7.3.3 大 数据 与 生物 信息 学 … 123 
大 数据 在 其 他 领域 的 应 用 ……… 25 
7.4.1 大 数据 say 125 
7.4.2 大 数据 与 汽车 行业 ………* 127 
7.4.3 大 数据 与 公共 管理 ……* 131 
7.4.4 大 数据 与 教育 行业 ……* 





第 8 章 


8.1 


大 数据 隐私 与 安全 … 





大 数据 面临 的 隐私 与 安全 


138 


8.2 


大 数据 隐私 与 安全 的 防护 


8.2.1 
8.2.2 
8.2.3 


大 数据 隐私 与 安全 的 
定义 
影响 大 数据 隐私 与 安全 的 
主要 因素 … 





分 类 


存储 安全 策略 
应 用 安全 策略 
管理 安全 策略 ………… 


8.3 大 数据 隐私 与 安全 的 防护 











技术 …… ，150 
8.3.1 数据 采集 与 存储 安全 

技术 ， 150 

8.3.2 数据 挖掘 安全 技术 ………… 154 

8.3.3 数据 发 布 安全 技术 …… 155 

4 聊 共 APT 我 坟 mero 156 

小 结 ee 161 

* 161 

* 163 








tm SS 


知识 要 点 掌握 程度 










相关 知识 

大 数据 的 背景 了 解 ~ Se 次 浪潮 、 大 数据 的 变革 思维 

大 数据 的 概念 掌握 S K 据 的 定义 、 数 据 存储 单位 
大 


大 数据 的 特征 掌握 数据 的 4V 特征 
大 数据 的 结构 类 型 A 结构 化 、 半 结 本 6、 淮 结构 化 和 非 结构 化 数据 
大 数据 的 关键 技术 大 数据 


E、 储 存 与 管理 等 技术 
大 数据 的 核心 产业 链 解 的 构成 、 生 态 商业 模式 的 分 析 
大 数据 的 发 展 = 了 解 
大 数据 的 应 ~ 熟悉 






























和 发 展 态势 及 其 所 面临 的 挑战 
在 金融 、 互 联网 等 领域 的 应 用 


Fiat SA 人 TiN 店 了 大 门 ， 带 动 了 互联 网 、 物 联网 、 电 子 商 务 
和 网 络 金融 等 现代 服务 业 的 发 展 ， 催 生 了 新 能 源 、 智 慧 交 通 、 智 慧 城市 和 高 端 装备 制造 
等 新 兴 产 业 。 与 此 同时 ,各 种 业务 数据 呈 爆 炸 式 增长 ， 大 数据 时 代 已 来 临 ， 传 统 的 信息 
处 理 技术 已 难以 满足 其 收集 、 存 储 、 分 析 和 应 用 的 需求 。 世 界 各 国 均 高 度 重视 大 数据 技 
术 的 研究 与 发 展 ， 以 期 在 “互联 网 第 三 次 浪潮 ”中 占 得 先 机 、 引 领 市 场 。 














1.1 大 数据 的 背景 





20 世纪 80 年 代 以 来 互联 网 经 历 了 三 次 浪潮 ， 相继 解 决 了 信息 处 理 、 信 息 传输 和 信 
息 爆炸 三 个 方面 的 诸多 问题 ,促使 思科 、 微 软 、 亚 马 逊 和 科大 讯 飞 等 行业 标杆 企业 的 诞 
生 ， 人 类 由 此 进入 了 大 数据 时 代 。 


1.1.1 互联 网 的 三 次 浪潮 

















根据 国际 商业 机 器 公司 (IMB) 前 CEO 郭 士 纳 的 观点 ，IT 领域 每 隔 若 干 年 就 会 迎 来 一 
大 变革 ， 见 表 1. 1。 








表 1.1 互联 网 的 三 次 浪潮 
互联 网 浪潮 发 生 时 间 解决 的 问题 代表 企业 
思科 、 斯 普 林 特 、 惠 普 、 太 阳 微 系统 、 微 软 和 苹 
果 等 
第 二 次 浪潮 21 世纪 初 信息 传输 谷歌 、 亚 马 进 、eBay、 腾 讯 和 阿里 巴巴 等 
第 三 次 浪潮 | 2010 年 前 后 信息 爆炸 科大 讯 飞 、 百 度 和 滴 滴 出 行 等 








第 一 次 浪潮 |20 世纪 90 年 代 | ”信息 处 理 




















20 世纪 90 年 代 ， 个 人 计算 机 进入 千家 万 户 ， 为 网 络 世界 的 到 来 打下 了 坚实 的 基础 ， 人 
类 迎 来 了 互联 网 的 第 一 次 浪潮 。 在 这 个 阶段 ， 思 科 、 斯 普 林 特 、 惠 普 、 太 阳 微 系统 、 微 软 、 
苹果 等 公司 创造 的 硬件 、 软 件 和 网 络 成 为 人 们 与 互联 网 联通 的 工具 。21 世纪 初 ， 谷 歌 等 搜 
索引 擎 的 出 现 ， 方 便 了 人 们 探索 网 络 世界 中 的 海量 信息 。 NT 在 互联 网 上 推出 了 








一 站 式 购 物 模式 ， 电 子 商 务 应 运 而 生 ， 社 交 网 络 此 时 也 进入 了 成 竟 互联 网 的 第 二 次 浪潮 
席卷 而 来 。2010 年 前 后 ， 云 计算 、 物 联网 、 大 数据 的 快速 2 了 互联 网 的 第 三 次 浪 
潮 的 序幕 ， 大 数据 时 代 已 经 到 来 ， J 断 涌现 。 


1.1.2 大 数据 的 变革 思维 


大 数据 是 人 们 获得 新 的 认 知 、 创 造 新 的 
民 关 系 的 方法 。 维 克 托 认为 大 数据 的 核 4 











4 源 果 ， 是 改变 市 场 、 组 织 机 构 及 政府 与 公 

里 测 ， 这 个 核心 代表 着 分 析 信 息 时 的 三 个 转 
变 。 第 一 个 转变 是 在 大 数据 时 代 需 要 的 数据 ， 有 时 甚至 要 处 理 与 某 个 特别 现象 相关 
的 所 有 数据 ， 而 不 再 依赖 于 随机 二 个 转变 是 研究 此 之 多 ， 以 至 于 不 再 热衷 于 


追求 精确 度 ; 第 三 个 转变 由 转变 促成 ， "ri 找 因 果 关 系 。 
最 初 ， 需要 处 理 的 过 大 , 已 经 超出 计算 机 在 处 理 数据 时 所 能 使 用 的 内 
进 处 理 数 







存量 ， 因 此 工程 师 据 的 工具 的 处 理 技术 的 诞生 ， 如 谷歌 公司 的 
MapReduce 源 doop 平台 ,使 得 以 处 理 的 数据 量 大 大 增加 。 更 重要 的 是 ， 
数据 不 再 需要 统 的 数据 库 表格 来 整 并 地 排列 。 这 是 传统 数据 库 结构 化 查询 语言 


(Structured Query Language，SQL) 的 要 求 ， 而 非 关 系 型 数据 库 (NoSQL) 没 有 这 些 要 求 ， 
于 是 可 以 消除 僵化 的 层次 结构 的 一 致 性 技术 就 出 现 了 。 同 时 ,因为 互联 网 公司 可 以 收集 
到 大 量 有 价值 的 数据 ， 所 以 成 为 了 最 新 处 理 技术 的 领衔 实践 者 。 

以 前 ， 一 旦 完成 了 收集 数据 的 工作 ,数据 就 会 被 认为 没有 太 大 的 价值 了 。 例 如 ， 在 
飞机 降落 之 后 ， 票 价 数据 就 失去 了 “价值 >， 能 够 反映 重要 通勤 信息 的 数据 被 工作 人 员 
“自作 主张 ”地 丢弃 了 。 也 就 是 说 ， 如 果 没 有 大 数据 的 理念 ,很 多 有 价值 的 数据 就 会 丢 
失 。 如 今 ， 人 们 认为 数据 不 再 是 静止 和 陈旧 的 了 。 数 据 已 经 成 为 一 种 商业 资本 、 一 项 重 
要 的 经 济 投入 ， 可 以 创造 新 的 经 济 利益 。 事 实 上 ,一旦 思维 转变 过 来 ， 数 据 就 能 被 巧妙 
地 用 来 激发 新 产品 和 新 服务 。 











1.2 大 数据 简介 


大 数据 不 等 同 于 数据 量 大 的 数据 ， 它 是 具有 一 定价 值 的 资源 ， 确 切 地 说 ， 它 可 以 为 
人 类 带 来 经 济 效益 和 社会 效益 。 大 数据 类 型 繁多 、 处 理 速 度 快 ， 但 价值 密度 低 ， 很 多 数 








[ms 大 


据 无 法 直接 使 用 ， 甚 至 没有 分 析 价值 。 除 了 结构 化 的 数据 ， 大 数据 更 多 是 半 结 构 化 、 准 
结构 化 和 非 结 构 化 的 ， 这 对 大 数据 的 处 理 和 分 析 工 作 提出 了 很 高 的 技术 要 求 。 


1.2.1 大 数据 的 概念 


从 经 济 学 的 角度 看 ， 大 数据 是 经 过 系统 整理 的 储存 在 现实 或 虚拟 
空间 中 ， 能 够 提供 一 定价 值 的 信息 资源 。 从 会 计 学 的 层面 看 ， 这 些 信息 
资源 是 大 数据 企业 或 大 数据 研究 机 构 通过 合法 交易 取得 的 能 够 拥有 或 控 【大 数据 的 定义 ] 
制 并 可 以 带 来 经 济 利益 的 资产 。 从 海量 的 数据 规模 来 看 ， 根 据 统计 ,全球 IP 流量 达到 1EB 
所 需 的 时 间 在 2001 年 是 1 年 ， 而 在 2013 年 仅 为 1 天 ,到 2016 年 则 仅 为 半天 。 全 球 新 产生 
的 数据 年 增 40%，, 信息 总 量 每 两 年 即 可 翻番 。2012 年 IDC 和 EMC 联合 发 布 的 《2020 年 的 
数字 宇宙 》 报 告 指出 ，2011 年 全 球 数据 总 量 已 达到 1. 87ZB， 0 DVD 光盘 存储 这 些 数 














据 ， 则 这 些 光 盘 排 起 来 的 长 度 达 8X 10 km。 数 据 存 储 单位 及 见 表 1. 2。 
表 1.2 数据 存储 单位 及 其 换算 

















单 
B(Byte， 字 节 1B= 8bit 


KB(Kilobyte， 千 字 节 ) 1KB=1024B 
MB(Megabyte， 兆 字 节 ) 1MB=1024KB 
GB(Gigabyte， 吉 字 节 ) s 1GB=1024MB 


换算 关系 




















TB(Trillionbyte， 太 字 1TB=1024GB 
PB(Petabyte, RR 1PB=1024TB 


证 
节 ) 






























EB(Exabyte, 1EB=1024PB 
ZB(Zet 1ZB= 1024EB 
大 数据 并 慌 是 指 海量 数据 ， 更 多 的 是 指 这 些 数 据 都 是 非 结构 化 的 、 


残缺 的 、 无 法 用 竺 统 方法 进行 处 理 的 。 也 正 是 因为 应 用 了 大 数据 技术 , 谷 > 
歌 才 能 比 政府 的 公共 卫生 部 门 时 两 周 时 间 预告 2009 年 四 型 HINI 流感 的 其 和 
发 。 也 就 是 说 ， 大 数据 需要 量化 并 进行 不 断 的 开发 、 分 析 和 应 用 。 所 谓 量 
化 是 指 从 错综复杂 的 数据 中 不 断 地 提取 和 整理 ， 把 现象 转变 成 可 以 分 析 应 【大 数据 存储 
用 的 形式 。 单位 的 换算 】 

1.2.2 大 数据 的 特征 

关于 “大 数据 的 特征 是 什么 ”这 个 问题 ， 学 术 界 比较 认可 大 数据 的 4V 说 法 数据 量 
大 (Volume)、 数 据 类 型 繁多 (Variety)、 处 理 速度 快 (Velocity) 和 价值 密度 低 (Value)。 

1. 数据 量 大 

人 类 进入 信息 社会 以 后 ， 数 据 以 自然 方式 增长 ， 其 产生 不 以 人 的 意志 为 转移 。 从 
1986 年 到 2010 年 的 20 多 年 时 间 里 ,全 球 数据 的 数量 增长 了 100 倍 ,今后 数据 的 增长 速 


度 会 更 快 。 预 计 到 2020 年 ， 全 球 将 拥有 35ZB 的 数据 量 , 与 2010 年 相 比 增长 近 30 倍 。 
随 着 Web 2. 0 和 移动 互联 网 的 迅速 发 展 ， 人 们 已 经 可 以 随时 随地 发 布 包 括 博 客 、 微 博 和 














微 信 在 内 的 各 种 信息 。 物 联网 也 得 到 了 飞速 发 展 ， 各 种 传感器 和 摄像 头 几乎 遍布 工作 和 
生活 的 各 个 角落 ， 这 些 设备 每 时 每 刻 都 在 自动 产生 大 量 的 数据 。 
2. 数据 类 型 繁多 


大 数据 的 来 源 众 多 ， 科 学 研究 和 Web 应 用 等 领域 都 在 源源 不 断 地 生成 新 的 数据 。 生 
物 大 数据 、 交 通 大 数据 、 医 疗 大 数据 、 电 信 大 数据 、 电 力 大 数据 和 金融 大 数据 等 呈现 出 
“井喷 式 ” 增 长 ， 所 涉及 的 数据 数量 十 分 巨大 ,已 经 从 TB 级 跃升 到 PB 级 ， 这些 数据 往 
往 被 归 类 为 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 。 与 以 往 的 结构 化 数据 为 主导 地 
位 的 局 面 不 同 ， 如 今 的 数据 多 为 非 结 构 化 数据 ,包括 网 络 日 志 、 社 交 网 络 信息 和 地 理 位 
置信 息 等 ， 对 数据 的 处 理 提 出 了 巨大 的 挑战 。 

传统 的 数据 主要 储存 在 关系 型 数据 库 中 , 但 是 在 Web 2.0 等 应 用 领域 中 ， 越 来 越 多 
的 数据 开始 被 储存 在 NoSQL 数据 库 中 ， 这 就 必然 要 求 在 集成 自 中 进行 数据 转换 ， 而 
这 种 转换 过 程 是 非常 复杂 和 难以 管理 的 。 传 统 的 联机 分 析 处 理 (Odlihe Analytical Processing， 
OLAP) 和 商务 智能 工具 大 多 面向 结构 化 数据 ， Re ;商业 软件 必须 是 用 户 友 

景 




















好 的 且 支 持 非 结构 化 数据 分 析 的 ， 这 样 才能 具有 广 

3. 处 理 速度 快 

大 数据 的 处 理 速度 非常 快 ， 各 种 数据 玉 和 导 实 时 在 线 ， 并 能 够 进行 快速 的 处 理 、 传 
送 和 存储 ， 以 便 全 面 反映 对 象 的 当下 数据 量 非常 庞大 的 情况 下 也 能 够 做 到 数据 
的 实时 处 理 ， en ss 速 获 得 高 价值 的 信息 。 以 谷歌 的 Dremel 为 例 ， 

它 是 一 种 可 扩展 的 、 交 互 式 系统 ， 用 于 同 2 4 分析， 通过 结合 多 级 树 状 

执行 过 程 和 列 式 数据 结构 ， 到 几 秒 内 完成 对 珍 的 聚合 查询 ， 也 能 扩展 到 成 千 
es 看 求 ， 并 且 可 以 在 2 一 3s 内 完成 PB 
si 的 看 ， 2 疫 
% 
大 数据 的 价 秆 密度 相对 较 低 ， 需 要 做 很 多 的 工作 才能 挖掘 出 有 价值 的 信息 。 随 着 互 
联网 和 物 联网 的 广泛 应 用 ， 信 息 感知 无 处 不 在 ， 在 数据 的 海洋 中 不 断 寻 找 才 能 “ 淘 ” 出 
一 些 有 价值 的 东西 ， 可 谓 “ 沙 里 淘金 "。 以 监控 视频 为 例 ， 一 天 的 记录 中 可 能 只 有 几 秒 是 
有 价值 的 ， 但 是 为 了 安保 工作 的 顺利 进行 不 得 不 投入 大 量 的 资金 来 购买 各 种 设备 ， 耗 
费 大 量 的 电能 和 存储 空间 以 保存 不 断 更 新 的 监控 数据 。 

有 人 把 数据 比喻 为 蕴藏 能 量 的 煤矿 ， 煤 炭 按照 性 质 不 同 分 为 焦煤 、 无 烟煤 、 i 
贫 煤 等 ， 而 露天 煤矿 、 深 山 煤矿 的 挖掘 成 本 也 不 同 。 与 此 类 似 ， 大 数据 并 不 在 “大 ”， 
a 
回 据 已 成 为 赢得 竞争 的 关键 


1.2.3 大 数据 的 结构 类 型 


























Es 大 数据 具有 多 种 形式 ， 从 高 度 结构 化 的 财务 数据 到 文本 文件 、 多 媒体 
【 太 标 闫 的 文件 和 基因 定位 图 等 ， 都 可 以 称 为 大 数据 。 由 于 数据 自身 的 复杂 性 ， 处 理 
组 成 部 分 】 大 数据 的 首选 方法 是 在 并 行 计算 的 环境 中 进行 大 规模 并 行 处 理 ， 这 使 得 同 








时 进行 并 行 摄取 、 数 据 装载 和 数据 分 析 成 为 可 能 。 多 数 的 大 数据 是 非 结构 化 或 半 结 构 化 
的 ， 就 需要 不 同 的 技术 和 工具 来 处 理 和 分 析 。 

大 数据 最 突出 的 特征 是 它 的 结构 。 图 1.1 显示 了 四 种 不 同 结构 类 型 的 数据 的 增长 趋 
势 。 可 知 ， 未 来 增长 的 80% 一 90% 的 数据 来 自 不 是 结构 化 的 数据 ( 半 结 构 化 数据 、 准 结构 
化 数据 和 非 结构 化 数据 )。 虽 然 图 1. 1 显示 了 4 种 不 相 分 离 的 数据 类 型 ,但 有 时 这 些 数 据 
类 型 是 可 以 被 混合 在 一 起 的 。 例 如 ， 某 传统 的 关系 数据 库 管 理 系 统 保存 着 一 个 软件 支持 
呼叫 中 心 的 通话 日 志 ， 其 中 包括 典型 的 结构 化 数据 ， 如 日 期 /时 间 截 、 机 器 类 型 、 问 题 类 
型 、 操 作 系统 ， 这 些 都 是 在 线 支持 人 员 通 过 图 形 用 户 界面 上 的 下 拉 莱 单 输入 的 ; 非 结 构 
化 数据 或 半 结 构 化 数据 ， 如 自由 形式 的 通话 日 志 信 息 ， 这 些 可 能 来 自 包含 问题 的 电子 邮 
件 、 技 术 问 题 和 解决 方案 的 实际 通话 描述 、 与 结构 化 数据 有 关 的 实际 通话 的 语音 日 志 或 
者 音频 文字 实录 。 即 使 是 现在 ， 大 多 数 分析 人 员 还 无 法 分 析 这 种 通话 日 志 历史 数据 库 中 
的 最 普通 和 高 度 结构 化 的 数据 ， 因 为 挖掘 文本 信息 是 一 项 强度 很 必 的 工作 ， 并 且 无 法 简 
单 地 实现 自动 化 。 

RY 


t 
包括 预 候 六 的 数据 y 
举例 于 区 收据 和 

























型 、 格 式 和 结构 的 数据 。 
联机 分 析 处 理 





具有 可 识别 的 模式 且 可 以 被 解析 的 文本 
数据 文件 ~ 





六 音 淮 癌 


县 模式 的 文本 数据 。 
举 不 一 致 的 数据 值 和 格式 








没有 固定 结构 的 数据 。 
举例 : 文本 文档 、PDF 文 档 






图 1.1 四 种 不 同 结构 类 型 的 数据 的 增长 趋势 


1. 2. 4 大 数据 的 关键 技术 日 二天 品 


大 数据 的 关键 技术 一 般 包 括 大 数据 采集 技术 、 大 数据 预 处 理 技术 、 大 疝 
数据 存储 与 管理 技术 、 大 数据 安全 开发 技术 、 大 数据 分 析 与 挖掘 技术 及 大 
数据 展现 与 应 用 技术 等 。 We 

关键 技术 了】 

1. 大 数据 采集 技术 

数据 采集 是 指 通 过 RFID 射频 、 传 感 器 、 社 交 网 络 交互 及 移动 互联 网 等 方式 获得 的 结 
构 化 、 半 结构 化 、 准 结构 化 和 非 结构 化 的 海量 数据 ， 是 大 数据 知识 服务 模型 的 根本 。 大 
数据 采集 一 般 分 为 智能 感知 层 和 基础 支撑 层 。 智能 感知 层 主要 包括 数据 传 感 体系 、 网 络 
通信 体系 、 传 感 适 配 体系 、 智 能 识别 体系 及 软 硬 件 资源 接 入 系统 ， 实 现 对 海量 数据 的 知 
能 化 识别 、 定 位 、 跟 踪 、 接 和 人、 传输 、 信 号 转换 、 监 控 、 初 步 处 理 和 管理 等 ;基础 支撑 
层 提 供 大 数据 服务 平台 所 需 的 虚拟 服务 器 、 数 据 库 及 物 联网 资源 等 基础 支撑 环境 。 
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2. 大 数据 预 处 理 技术 

大 数据 预 处 理 主要 完成 对 已 接收 数据 的 抽取 、 清 洗 等 操作 。 

51) 抽取 : 因 获 取 的 数据 可 能 具有 多 种 结构 和 类 型 ， 将 复杂 的 数据 转化 为 单一 的 或 
者 便于 处 理 的 构 型 ， 以 达到 快速 分 析 、 处 理 的 目的 。 

(2) 清洗 : 由 于 在 海量 数据 中 ， 数 据 并 不 全 是 有 价值 的 ， 有 些 数据 与 所 需 内 容 无 关 ， 
有 些 数据 则 是 完全 错误 的 干扰 项 ， 因 此 要 对 数据 进行 “去 品 ”， 从 而 提取 有 效 数 据 。 

3. 大 数据 存储 与 管理 技术 

大 数据 存储 与 管理 就 是 用 存储 器 把 采集 到 的 数据 存储 起 来 ,建立 相应 的 数据 库 ， 并 
进行 管理 和 调用 。 大 数据 存储 与 管理 技术 重点 解决 复杂 结构 化 、 半 结构 化 、 非 结构 化 数 
据 的 管理 与 处 理 ， 主 要 解决 大 数据 的 存储 、 表 示 、 处 理 、 和 有 效 传 输 等 几 个 关键 











问题 ， 开 发 可 靠 的 分 布 式 文件 系统 (Distributed File pe 、 能 效 优化 的 存储 、 
计算 融入 存储 、 大 数据 的 去 元 余 及 高 效 低 成 本 的 大 数 (oy 
大 数据 管理 与 处 理 技 术 、 异 构 数据 的 数据 融合 技术 Si 研究 大 数据 建 模 技 







术 、 大 数据 索引 技术 和 大 数据 移动 、 备 份 、 复 开发 大 数据 可 视 化 技术 和 新 型 

数据 库 技 术 。 新 型 数据 库 技术 将 数据 库 分 为 甘 系 岗 数 据 库 和 非 关 系 型 数据 库 。 其 中 ， 关 

系 型 数据 库 包含 了 传统 关系 型 数据 库 及 S 包 L 数据 库 ; 非 关 系 型 数据 库 主要 指 No- 
QL， 又 分 为 键 值 数据 库 、 列 存 数 数据 库 及 文档 数据 库 等 。 


等 技术 ,突破 隐 控制 、 a 数据 持 有 完整 性 验证 等 技术 。 
es 


大 数据 分 po 氟 挖 握 、 机 器 学 习 、 开 发 数据 网 络 挖掘、 特 
异 群 组 挖掘 和 图 挖 扎 等 新 型 数据 挖掘 技术 ,突破 基于 对 象 的 数据 连接 、 相 似 性 连接 等 大 
数据 融合 技术 和 用 户 兴趣 分 析 、 网 络 行为 分 析 、 情 感 语义 分 析 等 面向 领域 的 大 数据 挖掘 
技术 。 

数据 挖掘 就 是 从 大 量 的、 不 完全 的 、 有 噪声 的 、 模 糊 的 和 随机 的 实际 应 用 数据 中 提 
取出 隐 含 在 其 中 的 ， 人 们 事先 不 知道 但 又 潜在 有 用 的 信息 和 知识 的 过 程 。 数 据 挖 据 涉 及 
的 技术 方法 很 多 : 根据 挖掘 任务 可 分 为 分 类 或 预测 模型 发 现 、 数 据 总 结 、 聚 类 、 关 联 规 
则 发 现 、 序 列 模式 发 现 、 依 赖 关 系 或 依赖 模型 发 现 、 异 常 和 趋势 发 现 等 ;根据 挖掘 对 象 
可 分 为 关系 数据 库 、 面 向 对 象 数据 库 、 空 间 数据 库 、 时 态 数据 库 、 文 本 数据 库 、 多 媒体 
数据 库 、 异 质数 据 库 、 遗 产 数据 库 ; 根据 挖掘 方法 可 粗 分 为 机 器 学 习 方法 、 统 计 方法 、 
神经 网 络 方法 和 数据 库 方法 ， 机 器 学 习 方 法 又 可 细 分 为 归纳 学 习 方 法 、 基 于 范例 学 习 方 
法 和 遗传 算法 等 ， 统 计 方 法 可 细 分 为 回归 分 析 ( 多 元 回归 、 自 回归 等 )、 判 别 分 析 ( 贝 叶 斯 
判别 、 费 砍 尔 判别 、 非 参数 判别 等 )、 聚 类 分 析 ( 系 统 聚 类 、 动 态 聚 类 等 ) 和 探索 性 分 析 
( 主 元 分 析 法 、 相 关 分 析 法 等 ) 等 ， 神 经 网 络 方法 可 细 分 为 前 向 神经 网 络 (BP 算法 等 ) 和 自 
组 织 神经 网 络 ( 自 组 织 特征 映射 、 竞 争 学 习 等 ) 等 ， 数 据 库 方法 可 细 分 为 多 维 数据 分 析 法 、 


4. 大 数据 安全 开发 技术 关 、 
链 数据 销毁 、 RY 分 布 式 访问 控制 和 数据 审计 
证 
技术 














OLAP 方 法 、 面 向 属性 的 归纳 方法 。 

从 挖掘 任 务 和 挖掘 方法 的 角度 ， 数 据 挖 气 着 重 突破 以 下 几 个 方面 。 

(1) 可 视 化 分 析 。 无论 是 对 普通 用 户 还 是 数据 分 析 专 家 ， 数 据 可 视 化 都 是 最 基本 的 
功能 。 数 据 图 像 化 可 以 让 数据 “说 话 "， 让 用 户 直观 地 看 到 结果 。 

(2) 数据 挖掘 算法 。 图 像 化 是 将 机 器 语言 翻译 给 人 们 看 ， 而 数据 挖掘 算法 用 的 是 机 
器 语言 ， 通 过 分 割 、 集 群 、 孤 立 点 分 析 ， 可 以 精炼 数据 、 挖 气 价 值 。 要 求 数据 挖掘 算法 
能 处 理 大 量 的 数据 ， 同 时 应 具备 很 高 的 处 理 速度 。 

(3) 预测 性 分 析 。 预 测 性 分 析 可 以 使 分 析 师 根据 图 像 化 分 析 和 数据 挖掘 的 结果 作出 
前 脆性 判断 。 

(4) 语义 引擎 。 语 义 引擎 需要 设计 足够 的 智能 以 从 数据 中 主动 地 提取 信息 。 语 言 处 
理 技术 包括 机 器 翻译 、 情 感 分 析 、 和 与 情 分 析 、 智 能 输入 和 问答 系统 等 。 数 据 质量 与 管理 
是 管理 的 最 佳 实践 ， 通 过 标准 化 流程 和 机 器 对 数据 进行 处 eh 
量 目标 的 分 析 结果 。 从 

6. 大 数据 展现 与 应 用 技术 


大 数据 展现 与 应 用 技术 能 够 将 隐藏 于 海量 
社会 经 济 活动 提供 依据 ， Tg 


化 程度 。 
.2.5 ede 









分 信息 和 知识 挖掘 出 来 ,为 人 类 的 
率 ， 大 大 提高 整个 社会 经 济 的 集约 


在 社会 认 知 、 ed rs 面 , 我 国 的 大 数据 产业 已 经 
具备 一 定 的 基础 ， 2 人 一 ee 大 数 A 大 数据 技术 和 大 数据 应 用 领 
域 涌现 出 一 批 新 型 企 


大 数 A 
Qe a 企业 、 社 会 团体 及 个 人 ， 属 于 大 数据 
产业 链 上 的 基础 角色 ,包括 数据 源 提供 者 、 数 据 流通 平台 提供 者 和 数据 API 提供 者 。 目 
前 ， 我 国 大 数据 产 出 者 包括 政府 管理 部 门 、 企 业 数据 源 提供 商 、 互 联网 数据 源 提供 商 、 
物 联网 数据 源 提供 商 、 移 动 通信 数据 源 提供 商 、 提 供 数据 流通 平台 服务 和 数据 API 服务 
的 第 三 方 数据 服务 企业 、 社 会 团体 或 者 个 人 等 。 

(2) 大 数据 产品 提供 者 。 是 指 提供 直接 应 用 于 大 数据 产品 的 企业 ， 包 括 提供 大 数据 应 
用 软件 、 大 数据 基础 软件 、 大 数据 相关 硬件 产品 的 企业 。 大 数据 应 用 软件 产品 提供 者 如 
提供 整体 解决 方案 的 综合 技术 服务 商 ， 它 们 在 大 数据 计算 基础 设施 上 (与 云 结合 ) ， 从 简 
单 文件 存储 的 空间 租 售 模式 逐步 扩展 到 提供 数据 聚合 平台 ， 进 而 扩展 到 为 客户 提供 分 析 
业务 的 服务 。 大 数据 基础 软件 提供 者 搭建 大 数据 平台 ， 提 供 相关 大 数据 技术 支持 、 云 存 
储 和 数据 安全 等 ， 在 某 些 垂直 行业 或 者 区 域 掌握 大 数据 的 入口 与 出 口 ， 并 能 对 一 些 数据 
进行 采集 、 整 合 和 汇集 ， 包 括 传统 的 IT 企业 、 设 备 商 及 新 兴 的 云 服 务 相关 企业 。 大 数据 
相关 硬件 产品 提供 者 提供 大 数据 采集 、 接 人、 存储 、 传 输 、 安 全 等 硬件 产品 和 设备 。 

(3) 大 数据 服务 提供 者 。 是 指 以 大 数据 为 核心 资源 、 以 大 数据 应 用 为 主 业 开展 商业 经 
营 的 企业 ， 包 括 大 数据 应 用 服务 提供 者 、 大 数据 分 析 服 务 提供 者 、 大 数据 基础 设施 服务 





























提供 者 。 这 类 企业 处 于 大 数据 产业 链 的 下 游 ， 通 过 挖掘 隐藏 在 大 数据 中 的 价值 ， 不 断 推 
动 大 数据 产业 链 中 各 个 环节 的 发 展 和 成 熟化 。 从 某 种 角度 上 说 ， 正 是 此 类 公司 创造 了 大 
数据 的 真正 价值 ， 大 数据 应 用 服务 提供 者 基于 大 数据 技术 ， 对 外 提供 大 数据 服务 ;大 数 
据 分 析 服 务 提 供 者 提供 技术 服务 支持 、 技 术 ( 方 法 、 商 业 等 ) 咨 询 ， 或 者 为 企业 提供 类 似 
数据 科学 家 的 咨询 服务 ; 大 数据 基础 设施 服务 提供 者 提供 面向 大 数据 技术 与 服务 提供 者 
的 培训 、 咨 询 和 推广 等 的 基础 且 通 用 的 服务 。 

2. 大 数据 产业 生态 商业 模式 分 析 

大 数据 产业 拥有 多 元 化 的 商业 模式 ， 并 在 此 基础 上 扩展 和 衍生 ， 具 体 包含 数据 买卖 


模式 、 信 息 服 务 模式 、 第 三 方 数据 服务 模式 、 融 合 服务 模式 和 软 硬 件 销售 模式 。 
TO 











be 





经 营 商 ， 业 务 核心 是 大 数据 的 交易 ， 发 展 的 原动力 是 大 数据 的 三 复 利 用 。 这 种 公司 具有 
很 强大 的 大 数据 技术 能 力 。 多 数 情况 下 ， 大 数据 技术 主要 芍 运作 ， 如 通过 经 党 
大 数据 交易 平台 和 大 数据 API 开发 简 利 的 互联 网 企业 。 
(2) 信 息 服务 模式 。 是 指 企业 通过 分 析 隐 含 在 信息 入 
业 往往 具备 多 种 技能 ， 甚 至 同时 具有 大 数据 提 
这 类 企业 既 包括 传统 的 信息 技术 服务 和 软 业 ， 也 包括 咨询 、 审 计 、 财 务 和 人 金融 
表现 出 大 数据 核心 产业 和 衍生 产业 相互 


等 非 传统 意义 上 的 IT 企业 。 信 息 服务 表现 出 核心 产业 和 衍生 产 
融合 的 一 种 模式 。 
(3) 第 三 方 数 据 服务 模式 4 并 大 不 是 入 提 的 ， 也 不 是 数据 服务 的 应 用 


者 ， 而 是 专注 通过 提供 第 三 We 为 数据 中 间 商 ， 本 身 不 具有 


eee 营建 或 提供 数据 交易 平台 ， 从 数 
据 中 提取 有 用 信息 进 每 交 I 

(4) 融 合 服务 模 欠 有 很 多 企业 将 隐 篇 产品 及 服务 中 的 数据 挖掘 出 来 以 取得 收 
人 汪 提 供 信息 服务 的 咨询 、 审 计 、 财 务 等 企业 ， 
也 包括 利用 大 数据 在 产业 链 上 下 游 提供 金融 、 物 流 等 服务 而 获取 利润 的 制造 业 企业 。 

(5) 软 硬件 销售 模式 。 是 指 各 类 大 数据 产业 链 企 业 通过 直接 销售 服务 和 产品 的 方式 获 


取 利 润 。 对 于 大 数据 硬件 提供 者 和 大 数据 基础 设施 服务 提供 者 来 说 ， 软 硬件 销售 模式 是 
他 们 主要 的 盘 利 方式 。 








的 大 数据 获取 利润 。 这 类 企 
术 提 供 者 和 服务 提供 者 的 能 力 。 

















1.3 大 数据 的 发 展 和 应 用 


随 着 互联 网 的 发 展 ， 大 数据 走 进 了 人 们 生活 的 各 个 角落 。 世 界 各 国都 在 抢 抓 布局 ， 
不 断 加 大 扶持 力度 ,全 球 大 数据 的 市 场 规模 保持 高 速 增长 的 态势 。 我国 也 紧 跟 大 数据 的 
发 展 趋势 ， 大 数据 迅速 成 为 我 国 社会 各 领域 关注 的 热点 ,地 区 大 数据 发 展 格局 初步 形成 ， 
但 同时 面临 着 部 分 领域 较 热 、 数 据 开放 发 展 滞后 和 制度 建设 不 完善 等 吸 待 解决 的 问题 。 


1.3.1 大 数据 的 发 展 态势 
在 2016 年 7 月 Gartner 公司 发 布 的 新 兴 技 术 成 熟 度 曲线 中 , 往年 备 受 关注 的 大 数据 








及 相关 技术 概念 并 没有 出 现 。 “这些 从 曲线 中 消失 的 技术 依然 是 关键 ,只 是 不 再 是 “新 
兴 ” 的 技术 ”，Gartner 公司 如 此 解释 。 随 着 大 数据 相关 的 基础 设施 、 产 业 应 用 和 理论 体 
系 的 发 展 与 完善 ， 大 数据 越 来 越 被 各 界 所 了 解 ， 而 不 像 原 来 仅 是 少数 科技 极 客 眼中 的 
“新 领域 "。 目 前 ， 大 数据 以 爆炸 式 的 发 展 速度 迅速 蔓延 至 各 行 各 业 。 总 体 来 看 ， 大 数据 
进入 了 从 概念 推广 到 应 用 落地 的 关键 转折 期 。 

1. 大 数据 全 球 战略 布局 全 面 升级 


发 达 国家 期 望 通过 建立 大 数据 竞争 优势 ， 巩固 其 在 该 领域 的 领先 地 位 。 美 国 作 为 大 
数据 发 展 的 策 源 地 和 创新 的 引领 者 ， 最 早 正式 发 布 国家 大 数据 战略 。 美 国政 府 在 2012 年 
3 月 发 布 了 《大 数据 研究 和 发 展 倡议 》 (Big Data Research and Development Initiative)， 
将 大 数据 提升 为 一 种 战略 性 资源 应 用 在 科研 、 工 程 、 教 育 与 国家 安全 上 。 该 倡议 一 出 台 
便 得 到 多 个 联邦 部 门 和 机 构 的 响应 。 随 后 ,美国 政府 又 在 pe ei 《联邦 大 数据 
研究 与 开发 战略 计划 》， 围 绕 人 类 科学 、 oi < 键 领域 部 署 推进 大 















































数据 建设 的 相关 计划 。 

之 后 全 球 各 国家 、 组 织 纷纷 在 大 数据 战略 推进 
例 ， 其 在 2011 年 发 布 《 开 放 数 据 : 创新 、 增 长 和 的 引擎 ) 后 ， 又 出 台 了 《数据 驱 
动 经 济 战略 》， 着力 开展 对 开放 数据 、 云 让 价值 链 等 关键 领域 的 研究 。 澳 大 利 
et 战略 。 澳 大 利 亚 政府 于 2011 年 5 月 和 















行动 。 以 欧洲 联盟 (简称 欧盟 ) 为 











2013 年 8 月 先后 发 布 《 国 家 数字 经 告 》(National Digital Economy Strategy) 与 
《澳大利亚 公共 服务 大 数据 战 pion pts yp Big Data Strategy)， 为 国 
TO 英 据 战略 注重 强化 数据 分 析 能 
力 ， 其 商务 、 创 新 和 技 在 2613 年 10 月 发 数据 能 力 发 展 战略 规划 》， 对 数 






据 能 力 的 定义 和 优化 挝 行 了 系统 的 研究 和 指导 以 大 数据 分 析 为 突破 点 ， 提 高 国家 和 社 
enn 日 本 于 2012 发 布 了 《面向 2020 年 的 ICT 综合 战略 》， 
又 于 2013 年 工 战略 一 一 ke 地 册 和 司 家 宣言 》， 以 大 数据 应 用 开发 为 主要 战 
咯 方向 ， 通 过 新 技术 革命 带动 IT 产业 与 传统 产业 的 协调 发 展 ， 助 力 地 区 联动 、 民 本 高 效 、 
安全 开放 的 高 水 平 信息 社会 建设 。 同 处 亚洲 地 区 的 韩国 也 积极 推行 了 “创意 经 济 ” 计 划 ， 以 
组 化 信息 通信 技术 与 融合 领域 有 潜力 的 新 兴 企 业 和 项 目 为 抓 手 ,推动 互 联网 相关 产业 的 发 
展 。 早 在 2011 年 ， 韩 国 科 学 技术 研究 院 就 曾 提 出 “大 数据 中 心 战略 ”及 “构建 英特尔 综合 
数据 库 ”等 计划 ,设计 大 数据 未 来 发 展 路 线 。2013 年 ， 韩 国政 府 又 率先 宣布 建设 首 个 对 
社会 公众 开放 的 全 行业 数据 中 心 。 


对 比 世界 各 国 的 大 数据 发 展 战略 ， 可 以 发 现 三 个 共同 点 : 一 是 a 












































政府 全 力 推动 ， 同 时 引导 市 场 力量 共同 推进 大 数据 发 展 ; 二 是 推动 二 
大 数据 在 政 用 、 商 用 和 民用 领域 的 全 产业 链 覆 盖 ; 三 是 重视 数据 资 f 
源 开 放 和 管理 的 同时 ， 全 力 抓 好 数据 安全 问题 。 

2. 我 国 加 快 构建 大 数据 战略 体系 

我 国 紧 跟 大 数据 的 发 展 趋势 ， 在 短 短 几 年 内 ,大 数据 迅速 成 为 
我 国 社会 各 领域 关注 的 热点 。 我 国政 府 高 度 重视 将 大 数据 作为 一 种 前 瞻 领 域 的 战略 意义 ， 

















【实施 国家 大 数据 战略 ， 
加 快 建设 数字 中 国 】 





























并 在 近 几 年 加 快 推行 相关 政策 的 制定 和 实施 工作 ， 启 动 促进 大 数据 发 展 的 数据 强国 计划 。 

2015 年 8 月， 国务 院 发 布 《 促 进 大 数据 发 展 行动 纲要 》， 提 出 全 面 推进 我 国 大 数据 的 
发 展 和 应 用 ， 加 快 建设 数据 强国 ; 同年 10 月 ， 中 国共 产 党 第 十 八 届 中 央 委 员 会 第 五 次 全 
体会 议 将 “大 数据 ” 写 和 会 议 公报 并 升级 为 国家 战略 ; 2016 年 3 月 ， 国 家 在 出 台 的 “十 
三 五 ”规划 纲要 中 再 次 明确 了 大 数据 作为 基础 性 战略 资源 的 重大 价值 ， 提 出 要 加 快 推动 
相关 研发 、 应 用 及 治理 ，2017 年 1 月 , 《大 数据 产业 发 展 规划 (2016 一 2020 年 )》 正 式 发 
布 ， 全 面 制订 了 未 来 五 年 的 大 数据 产业 发 展 计 划 ， 为 “十 三 五 ”时 期 大 数据 产业 的 持续 
健康 发 展 确立 了 目标 与 路 径 。 

3. 地 区 大 数据 发 展 格局 初步 形成 

在 《促进 大 数据 发 展 行动 纲要 》 发 布 之 前 ， 广东、 上 海 、 贵 州 等 地 率先 开展 了 大 数 
据 地 方 政策 的 先行 先 试 。 广 东 省 经 济 和 信息 化 委员 会 在 2012 以 定 了 到 2020 年 完成 
“智慧 广东 ”基本 建设 的 构想 ， 并 将 其 写 和 人 《广东 省 实施 太 数 4 工作 方案 )。 上 海 市 
科学 学 技术 委员 会 在 2013 年 7 月 12 日 编制 发 布 了 《上 海 失 苏 汶 笋 据 研究 与 发 展 = :年 行动 计 
划 (2013 一 2015 年 )》， 为 该 市 大 数据 发 展 确 立 了 具体 全 大 及 若干 保障 措施 与 推进 机 制 。 
2014 年 2 月 25 日 ,贵州 省 政府 印发 了 《关于 力 A ie 
和 《贵州 省 大 数据 产业 发 展 应 用 规划 纲要 (20 提出 了 大 娄 提 六 业 的 二 的 相 
发 展 路 径 。 而 在 《促进 大 数据 发 展 行动 岗 要 
2 月 ， 全 国有 28 个 省 、 自 治 区 、 直 

2016 年 2 月 25 日 ,贵州 获 国 首 个 大 数据 试验 区 。 同 年 10 月 8 日 ， 包 
:内 的 七 个 国家 大 数据 综合 
为 跨 区 域 类 、 区 域 示 范 类 及 大 









































































een hs ”重庆 、 沈 阳 
en 批 的 大 数据 综合 
域 


数据 基础 设施 统筹 发 展 类 机 计生 ， 各 地 过 和 上 人 结 的 经 验 做 法 将 
对 东 、 中 、 西 和 录 域 的 大 数据 染 廊 起 公 篇 射 带动 作用 ， 同 时 对 各 地 区 的 数据 共 
部 、 大 数据 总 作 网 工 作 极 具 参 考 价值 . 

经 过 几 年 的 次 索 与 实践 ， 地 区 大 数据 发 展 的 梯次 格局 初步 显现 。 北京、 广东 、 上 海 
和 林 部 人 过 地 区 产业 各 善 、 人 才 优势 明显 ， OO 
达 地 区 的 贵州 、 重 庆 等 地 ， 通 过 战略 创新 形成 先 发 优 势 ， 政 府 积极 实施 政策 引导 ， 引 进 


人 ee 
1.3.2 我 国 大 数据 发 展 面临 的 问题 与 挑战 


在 我 国信 息 化 建设 中 ， 大 数据 的 收集 、 储 存 、 分 析 、 应 用 能 力 不 断 提高 。 在 “十 二 
五 ”期 间 ， 全 国共 完成 300 个 左右 的 智慧 城市 试点 探索 ， 取 得 了 做 人 的 成 绩 ， 但 同时 我 国 
大 数据 的 发 展 面临 着 以 下 问题 与 挑战 。 

1. 部 分 领域 建设 过 热 

目前 ,我国 地 方 政府 在 发 展 大 数据 的 过 程 中 存在 一 些 超前 建设 、 发 展 结构 不 合理 的 
问题 。 相 关 数 据 显示 ,我国 在 2013 年 规划 建设 了 255 个 数据 中 心 。 其 硬件 设施 占用 面积 
超过 400 万 平方 米 。 盲 目 扎堆 建设 大 数据 中 心 已 成 为 突出 问题 ,许多 城市 至 少 拥有 两 个 数 
据 中 心 ， 个 别 城市 建设 了 五 个 以 上 ,数量 过 剩 问题 明显 。 大 量 建设 数据 中 心 并 没有 发 挥 





























应 有 的 作用 ， 中 华人 民 共和 国 工业 和 信息 化 部 调查 显示 ，2014 年 新 建 的 中 小 型 数据 中 心 
的 投产 率 为 40%， 大 型 数据 中 心 为 21. 5%， 而 超大 型 数据 中 心 仅 为 1. 8%。 从 投资 结构 
来 看 ， 各 地 建设 还 存在 着 “重建 设 ， 轻 应 用 ; 重 硬件 ， 轻 软件 ”的 问题 。 根 据 国家 信息 
中 心 和 南海 大 数据 应 用 研究 院 联合 发 布 的 《2017 中 国 大 数据 发 展 报告 》 显 示 ， 在 政府 投 
资 项 目 中 ， 平 台 建设 类 占领 域 投资 的 35. 90% ， 基 础 设施 建设 占 35. 33%， 上 述 两 类 建设 
的 占 比 就 超过 了 70%， 而 购买 服务 类 为 23.93%， 应 用 软件 开发 仅 为 4.84%。 许 多 地 方 
政府 错误 地 将 “发 展 大 数据 ”与 “建设 大 数据 中 心 ”而 等 号 ,忽视 了 大 数据 是 一 个 以 应 
用 为 主 的 产业 ， 其 核心 价值 是 挖掘 提 取 数 据 价值 ， 其 发 展 的 关键 在 于 应 用 实践 。 

2. 数据 开放 进展 灌 后 

我 国 在 数据 资源 开放 进程 中 ， 在 开放 范围 、 开 发 利用 模式 和 标准 等 方面 存在 不 足 。 

(1) 我 国 数据 开放 总 体 水 平 较 低 ， 数 据 开放 工作 质量 差 。 开 oa 
突出 ， 很 多 网 站 虽然 提供 了 数据 ， 但 大 多 是 图 片 形式 ， A 口 也 不 支持 机 器 可 
























































读 ， 同 时 缺乏 必要 的 说 明 。 因 此 ,如何 处 理 规模 庞大 的 中 据 并 提供 可 信 的 资料 来 

源 ， 是 政府 数据 开放 所 面临 的 重要 课题 之 一 。 
(2) 地 方 开放 数据 工作 积极 性 不 高 ， 相 关 政 

海 、 广 州 、 贵 阳 等 地 出 台 了 明确 的 数据 开放 


开放 工作 多 存在 于 智慧 城市 或 与 大 数据 相关 
据 开放 的 文件 。 


支持 机 器 可 读 、 数 据 更 新 滞后 


完全 统计 ， 目 前 仅 上 
er pe 

















单 扩大 开放 的 范围 不 


大 ， 需 放 ee et 祥 公 环境 建设 不 足 ， 公 众 缺 乏 对 
数据 开放 ( 即 数据 消 的 认 知 。 Sr 
3. 制度 建设 入 从 





我 国 高 拘 据 发 展 与 应 用 ， 目 出 台 很 多 国家 级 文件 ， 涵盖 制造 业 、 金 融 
业 和 物流 业 等 pS 市 计 . 简 政 放权 等 25 个 重点 领域 。 但 同时 ,我 国 
etd ie a 实践 路 径 不 清晰 、 对 大 数据 发 展 应 用 的 要 求 模糊 、 相 关 生 
态 系统 完善 和 区 域 特色 化 发 展 不 足 等 政策 落实 问题 。 

ee nt 
角度 ， 大 数据 的 应 用 对 公众 隐私 保护 提出 了 巨大 挑战 .个 人 信息 保护 形势 严峻 ;从 企业 
角度 ， 数 据 资产 所 有 权 与 使 用 权 还 处 在 模糊 地 带 ， 相关 资产 与 交易 行为 未 得 到 规范 ; 从 
国家 角度 ， 数 据 空间 成 为 新 领域 ， 政 府 迫 切 需 要 对 跨 境 数据 的 流通 进行 管理 ， 对 涉及 国 
家 机 密 与 经 济 安 全 的 数据 进行 保护 。 目 前 ， 当 务 之 急 是 需要 出 台 并 完善 《 数 权 法 》， 为 数 
据 交易 、 个 人 隐私 保护 提供 法 律 保障 。 

(2) 我 国 大 数据 领域 还 缺乏 较 完善 的 行业 监管 机 制 。 在 标准 化 方面 ,数据 开 放 共 享 、 
交易 、 安 全 、 系 统 级 产品 、 管 理 及 评估 类 的 标准 较 缺 乏 ， 整 体 规划 需要 完善 。 因 此 ， 亚 
待 从 国家 层面 制定 并 完善 大 数据 标准 和 规范 ， 完 善 大 数据 标准 的 应 用 环境 。 


4. 安全 管理 存在 漏洞 
数据 安全 是 大 数据 发 展 制度 建设 的 突出 问题 ， 目 前 我 国信 息 安全 和 数据 管理 体系 仍 









































不 健全 ， 没 有 建立 起 兼顾 安全 与 发 展 的 数据 管理 保障 体系 。 因此， 提出 以 下 两 点 建议 。 

(1) 构 建 动 态 的 风险 监控 与 防范 机 制 。 在 标准 体系 方面 ， 要 加 快 数据 质量 、 数 据 安全 
评估 等 标准 研究 的 工作 ; 在 安全 监管 方面 , 要 加 强 对 跨 境 数 据 的 监控 ,增加 安全 应 用 研 
发 的 激励 机 制 ， 在 安全 保障 方面 ,要 建立 个 人 数据 泄露 后 的 问 责 和 赔偿 机 制 。 

(2) 推 动 第 三 方 的 个 人 信息 保护 认证 监督 工作 。 世 界 各 国 对 个 人 信息 保护 工作 高 度 重 

， 多 年 来 美国 已 形成 了 完善 的 行业 自律 体系 与 市 场 认证 机 制 ， 欧 盟国 家 都 专门 设立 了 
we 责 个 人 数据 的 保护 工作 ,以 及 相关 的 审批 、 检 查 与 处 罚 工 作 ; 而 我 国 尚 
未 成 立 监督 保护 个 人 数据 的 专门 机 构 。 除 此 之 外 ,地方 政 府 应 积极 推动 第 三 方 的 个 人 信 
息 保护 认证 监督 工作 ,发 挥 中 立 机 构 和 市 场 的 力量 , 更 好 地 监督 标准 、 规 范 和 法 规 的 
执行 。 





















































5. 人 才 资 源 储备 不 足 所 
人 才 供 给 不 足 是 大 数据 产业 发 展 所 必须 解决 的 关键 问 肯 锡 分 析 研 究 ，2018 
年 ， 美 国 在 “深度 分 析 ” 方 面 面 临 14 万 一 19 万 人 的 人 “能 够 分 析 数 据 帮 助 公 
司 做 出 商业 决策 ”方面 面临 150 万 人 的 人 才 缺 口 。 稚 x 据 应 用 需求 同样 旺盛 ， 根 据 
中 国 商 委 会 数据 分 析 部 统计 ， 我 国 大 数据 市 场 临 1400 万 人 的 人 才 缺 口 。 另 外 ， 
TAR 现在 以 下 两 个 方面 。 

据 







(1) 岗位 供需 不 均衡 。 国 家 信息 显示 ,大 数据 领域 数据 分 析 等 技术 类 
岗位 供不应求 ， 招 聘 岗 位 在 行业 中 51. 62%， 求职 人 数 仅 占 行业 的 37. 76%; 而 
项目 管理 类 岗位 则 出 现 了 供 物 条 ， J] 分 别 占 全 行业 的 1. 49% 
和 21. 31%。 


(2) 地 域 供需 不 均 社会 大 环境 的 影 4 上 海 、 Be 深圳 等 地 区 人 才 
供给 过 多 ， ee 肥 A :的 地 区 人 才 供 应 


1.3.3 A 


近年 来 ,“ 用 数据 说 话 、 用 数据 决策 、 用 数据 创新 ”的 共识 逐步 达成 ， 
大 数据 的 应 用 已 经 涉及 生活 中 的 各 个 重要 领域 。 我 国 在 推进 标准 先行 的 基础 上 ， 促 使 大 
数据 的 应 用 范围 逐步 扩大 、 应 用 程度 逐渐 加 深 ， 尤其 在 金融 、 互 联网 、 生 物 医 学 、 物 流 
及 公共 等 领域 应 用 效果 不 断 显 现 。 

金融 行业 在 长 期 的 业务 开展 过 程 中 积累 了 海量 的 数据 ， 这 些 数据 蕴含 着 珍贵 的 信息 
价值 ， 通 过 应 用 大 数据 技术 可 以 将 这 些 价 值 充分 挖掘 出 来 。 面 对 种 类 如 此 繁多 且 数 量 庞 
大 的 数据 ， 金 融 行 业 应 该 最 大 限度 地 利用 大 数据 技术 进行 数据 分 类 、 整 合 、 分 析 和 应 用 ， 
以 增加 业务 产 出 。 

相对 于 传统 的 小 数据 商业 模式 来 说 , 海量 的 数据 已 经 成 为 当今 电子 商务 非常 具有 优 
势 和 商业 价值 的 资源 。 电 子 商 务 企业 记录 着 所 有 注册 用 户 的 浏览 信息 、 消 费 记 录 、 用 户 
对 商品 的 评价 、 产 品 交易 量 、 库 存量 和 商家 的 信用 信息 。 也 就 是 说 ， 大 数据 贯穿 了 电子 
商务 的 整个 生命 周期 ， 能 和 否 提高 企业 的 竞争 力 很 大 程度 上 依赖 于 大 数据 技术 的 应 用 程度 。 

大 数据 在 生物 医学 领域 也 得 到 了 广泛 的 应 用 和 认可 。 在 流行 病 预测 方面 ， 大 数据 使 
人 类 在 公共 卫生 管理 领域 迈 上 了 一 个 新 的 台阶 ; 在 智慧 医疗 方面 ， 大 数据 技术 可 以 让 患 


























者 体验 “一 站 式 ” 医 疗 、 护 理 和 保险 服务 ;在 生物 医学 方面 ， 大 数据 使 得 
利用 数据 科学 知识 分 析 生物 学 过 程 成 为 可 能 。 
在 物流 领域 ， 大 数据 技术 使 物流 智能 化 ， 省 去 了 很 多 机 械 的 人 力 工作 ， 站 站 是 
大 大 提升 了 物流 系统 的 效率 和 效益 ;在 汽车 行业 ,“ 无 人 汽车 ”和 车 联网 保 

险 精准 定价 的 出 现 ， 让 车 主 可 以 获得 更 加 贴心 的 服务 ; 在 公共 安全 领域 【大 数据 医疗 的 
借助 大 数据 可 以 更 好 、 更 快 地 应 对 突 发 事件 ， 以 保证 社会 和 谐 稳定 。 i 




















小 结 
本 章 首先 从 互联 网 的 三 次 浪潮 和 大 数据 的 变革 思维 两 方面 介绍 了 大 数据 的 背景 ， 分 


析 了 大 数据 的 结构 类 型 ,并 简要 介绍 了 大 数据 的 关键 技术 ,包括 拓 数 据 采集 、 预 处 理 及 
存储 与 管理 等 ;然后 从 大 数据 产业 生态 商业 角色 构成 和 产业 站 模式 两 方面 介绍 了 


全 saxs 


(1) 大 数据 (2) 第 三 ; 
(5) 大 数据 采集 (6) 数 据 局 


了 由 
pn se 系 .A ). 








A, 1 024PB B. 1KB=1024B 

C. 1TB=1024GB D. 1PB=1024TB 
(2) 以 下 ( ) 不 是 大 数据 的 特征 。 

A. 数据 量 大 B. 数据 类 型 繁多 

C. 处 理 速度 快 D. 价值 密度 高 
(3) 大 数据 的 结构 类 型 包括 ( We 

A, 结构 化 B. 半 、 准 结构 化 

C. 非 结构 化 D. 以 上 全 部 
(4) 关 系 型 数据 库 包括 NewSQL 和 ( 

A. MySQL B. NoSQL 

C. 传统 关系 型 数据 库 D. 非 关系 型 数据 库 
(5) 以 下 ( ) 不 属于 大 数据 产业 生态 商业 角色 。 

A. 大 数据 产 出 者 B. 大 数据 产品 提供 者 

C. 大 数据 服务 提供 者 D. 大 数据 开发 者 


(6) 我 国 大 数据 的 发 展 面临 的 问题 包括 ( 3 








Gs xasse 





A. 部 分 领域 建设 过 热 B. 数据 开放 进展 洁 后 
C. 制度 建设 尚 不 完善 D. 以 上 全 部 
2. 判断 题 


(1) 大 数据 就 是 量 比较 大 的 数据 。 


(2) 大 数据 的 特征 有 数据 量 大 、 数 据 类 型 繁多 、 处 理 速度 快 和 价值 密度 高 。 


(3) 大 数据 的 结构 分 为 结构 型 和 非 结构 型 。 

(4) 大 数据 是 在 线 的， 可 以 随时 调用 和 计算 。 

(5) 大 数据 最 核心 的 价值 是 对 海量 的 数据 进行 存储 和 分 析 。 

(6) 我 国 大 数据 在 诸多 重要 领域 的 发 展 都 处 于 世界 领先 地 位 。 

3, 简 答 题 

(1) 简 述 大 数据 时 代 人 的 三 种 思维 转变 。 

(2) 大 数据 的 4V 特征 是 什么 ? 从 
(3) 简 述 大 数据 的 关键 技术 。 NN 
(4) 简 述 大 数据 产业 生态 商业 角色 的 构成。 SN 

(5) 我 国 大 数据 发 展 面临 着 哪些 方面 的 问题 与 抚 战 

(6) 目 前 主要 在 哪些 领域 应 用 大 数据 ? 
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第 忆 章 


大 数据 的 采集 和 预 处 理 
bt 入 


大 数据 的 采集 来 源 熟悉 
大 数据 的 采集 方法 掌握 


Apache Flume 采集 平台 熟悉 Ne Flume 的 结构 
大 数据 的 预 处 理 技术 > 数据 清洗 、 数 据 集 成 、 数 据 变换 和 数据 归 约 
数据 仓库 、TT7 TT NETTE 

ETL DE EF ne IT 具 


大 数据 环境 下 ?0 数据 的 难度 大 ， 对 数据 表达 提出 了 很 高 
的 要 求 。 为 4 ae 把 好 关 ， 其 中 数据 源 的 选择 和 原始 数据 
的 采集 方法 是 采集 的 关键 。 对 采集 到 的 原始 数据 进行 分 析 挖掘 之 前 ， 需 要 先 对 其 
进行 清洗 、 集 成 、 变 换 和 归 约 ， 以 达到 用 挖掘 算法 获取 知识 所 要 求 的 最 低 标准 。 









































2.1 大 数据 的 采集 


数据 采集 是 大 数据 技术 体系 中 至 关 重要 的 一 项 技术 ,涉及 不 同 的 采集 来 源 、 方 法 和 平 
台 , 采集 的 数据 质量 直接 决定 了 大 数据 预 处 理 的 难度 和 工作 量 。 互 联网 数据 是 数据 采集 的 主 
要 来 源 之 一 ， 其 通常 使 用 网 络 数据 采集 方法 进行 采集 。 大 数据 采集 平台 的 选择 取决 于 数据 本 
身 的 结构 和 数据 量 ， 合 理 选择 采集 平台 可 以 在 很 大 程度 上 提高 数据 采集 的 效率 和 质量 。 

2.1.1 大 数据 的 采集 来 源 

大 数据 的 三 大 主要 来 源 为 商业 数据 、 互 联网 数据 和 物 联 网 数据 。 其中， 商业 数据 来 
自 企 业 ERP、 各 种 POS 终端 及 网 上 支付 等 业务 系统 ; 互联 网 数据 来 自 通信 记录 及 QQ、 


微 信 、 微 博 等 社交 媒体 ， 物 联网 数据 来 自 射频 识别 (RFID) 装 置 、 全 球 定位 设备 、 传 感 器 
设备 和 视频 监控 设备 等 。 











1. 商业 数据 


商业 数据 是 指 来 自 企 业 ERP、 各 种 POS 终端 及 网 上 支付 等 业务 系统 的 数据 ， 是 现在 
最 主要 的 数据 来 源 渠 道 。 世 界 上 最 大 的 零售 商 一 沃尔玛 公司 每 小 时 收集 2. 5PB 数据 ， 























存储 的 数据 量 是 美国 国会 图 书馆 的 167 倍 。 沃 尔 玛 公 司 详细 记录 了 消费 者 的 购买 清单 、 消 
费 额 、 日 期 和 当日 天 气 ， 通 过 对 消费 者 的 购物 行为 等 非 结构 化 数据 进行 分 析 ， 可 以 发 现 
商品 关联 ， 并 优化 商品 陈列 。 沃 尔 玛 公司 不 仅 采集 这 些 传统 商业 数据 ， 还 将 数据 采集 的 
触角 伸 到 社交 网 络 数据 。 当 用 户 在 Facebook 和 Twitter 谈论 某 些 产品 或 者 表达 某 些 喜好 
时 ， 这 些 数 据 都 会 被 沃尔玛 公司 记录 下 来 并 加 以 利用 。 亚 马 逊 拥有 全 球 零 售 业 最 先进 的 
数字 化 仓库 ， 通 过 对 数据 的 采集 、 整 理 和 分 析 ， 可 以 优化 产品 结构 ， 实 现 精准 营销 和 快 
速 发 货 。 另 外 ， 亚 马 逊 的 Kindle 电子 书 中 积累 了 上 千 万 本 图 书 的 数据 ， 并 完整 记录 着 读 
者 对 图 书 的 标记 和 笔记 ， 若 加 以 分 析 ， 亚 马 逊 就 可 以 从 中 得 型 感 兴趣 的 内 容 ， 从 而 
为 读者 推荐 更 加 贴 合 其 需求 的 图 书 。 < 

















2. 互联 网 数据 全- 
sed i ， 包 括 通信 记录 及 QQ、 微 信 、 
微 博 等 社交 媒体 产生 的 数据 ， 数 据 复杂 ”社交 网 络 中 记录 的 数据 大 部 分 是 


用 户 的 当前 状态 信息 ， 包 括 用 户 的 年 龄 在 地 、 教 育 青 最、 职业 和 兴趣 等 ， 正 
因 如 此 ， 互 联网 数据 具有 大 量化 、 


(1) 大 量化 。 在 信息 化 背景 下 对 数据 增长 轿 。 数 据 集合 规模 已 实现 从 GB 
级 到 PB 级 的 飞跃 ， pl 2 在 未 来 的 发 展 中 还 将 实现 近 50 信 





















的 增长 ， 人 ， 以 满足 大 冶 
(2) 多 样 化 。 互 sh 如 结 的 化 数据 、 半 经 # 构 化 数据 、 准 结构 化 数据 和 
非 结 构 化 数据 。 五 中 的 非 结构 f E 飞速 增长 ， 据 相关 调查 统计 ，2012 年 年 


底 非 结构 化 络 数 据 总 量 中 占 77 吕 般 硬 ， 如 今 这 个 比率 更 大 。 非 结构 化 数据 的 产 
生 与 社交 网 络 及 传感器 技术 的 发 展 有 直接 联系 。 

53) 快速 化 。 一 般 情 况 下 ， 互 联网 数据 以 数据 流 的 形式 快速 产生 ， 且 具有 动态 变化 的 
特征 ， 其 时 效 性 要 求 用 户 必 须 准确 掌握 互联 网 数据 流 才能 更 好 地 利用 这 些 数据 。 

互联 网 是 大 数据 信息 的 主要 来 源 ， 能 够 采集 什么 样 的 信息 、 采 集 到 多 少 信息 及 哪些 
类 型 的 信息 ， 直 接 影响 着 大 数据 应 用 功能 的 发 挥 效 果 。 而 采集 信息 数据 需要 考虑 采集 量 、 
采集 速度 、 采 集 范 围 和 采集 类 型 。 信 息 数据 的 采集 速度 可 以 达到 秒 级 以 上 ,采集 范围 涉 
及 微 博 、 论 坛 、 博 客 、 新 闻 网 、 电 商 网 站 和 分 类 信息 网 站 等 各 种 网 页 ， 采 集 类 型 包括 文 
本 、 数 据 、URL、 图 片 、 视 频 和 音频 等 。 

3. 物 联 网 数据 


物 联 网 是 指 在 计算 机 互联 网 的 基础 上 利用 RFID 装置 、 传 感 器 、 红 外 感应 器 和 无 线 数 
据 通信 等 技术 ， 实 现 物 物 相 联 的 互联 网 络 。 主 要 涵盖 两 个 方面 内 容 : 一 是 物 联 网 的 核心 
和 基础 仍 是 互联 网 ， 是 在 互联 网 的 基础 上 延伸 和 扩展 的 一 种 网 络 ; 二 是 其 用 户 端 延伸 和 
扩展 到 了 不 同 物品 与 物品 之 间 的 信息 交换 。 物 联网 是 一 种 通过 RFID 装置 、 传 感 器 、 红 外 
感应 器 、 全 球 定位 系统 、 激 光 扫 描 器 等 信息 传 感 设备 ， 按 约定 的 协议 将 不 同 物品 与 互联 
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网 联接 起 来 ， 以 进行 信息 交换 和 通信 ， 从 而 实现 智慧 化 识别 、 定 位 、 跟 踪 、 监 控 和 管理 
的 网 络 体系 。 

物 联 网 数据 是 除了 人 和 服务 器 之 外 , 在 RFID、 物 品 、 设 备 、 传 感 器 等 节点 产生 的 大 
量 数 据 ， 包 括 RFID 装置 、 音 频 采 集 器 、 视 频 采 集 器 、 传 感 器 、 全 球 定位 设备 、 办 公设 
备 、 家 用 设备 和 生产 设备 等 产生 的 数据 。 物 联网 数据 的 主要 特点 如 下 。 

(1) 物 联网 中 的 数据 量 更 大 。 物 联网 的 主要 特征 之 一 是 节点 的 海量 性 ， 其 数量 规模 远 
大 于 互联 网 ， 物 联网 节点 的 数据 生成 频率 远 高 于 互联 网 ， 传 感 器 节点 多 数 处 于 全 时 工作 
状态 ， 数 据 流 是 持续 的 。 

(2) 物 联网 中 的 数据 传输 速率 更 高 。 由 于 物 联 网 与 真实 物理 世界 直接 关联 ， 很 多 情况 
下 需要 实时 访问 、 控 制 相应 的 节点 和 设备 ， 因 此 需要 更 高 的 数据 传输 速率 来 支持 。 

(3) 物 联 六， 和 居 、 科 共和 和 人 和 和 有 和 业 人 






































通 、 智 慧 物流 、 商 品 湖 源 、 智 能 家 居 、 智 慧 医 疗 和 智能 安防 等 KK 会 不 同 领域 和 行业 需要 

面 对 不 同类 型 的 应 用 数据 ， 因 此 物 联 网 的 数据 多 样 性 更 突 SS 
(4) 物 联网 对 数据 真实 性 的 要 求 更 高 。 物 联网 是 走 实 世界 与 虚拟 信息 世界 的 结 
合 ， 其 对 数据 的 处 理 和 基于 此 进行 的 决策 将 直接 界 ， 因 此 物 联 网 数据 的 真实 
积 监控 布点 转变 为 注重 视频 智能 预警 、 


性 显得 尤为 重要 。 

以 智能 安防 应 用 为 例 ， 智 能 安防 行 
分 析 和 实战 ， 利 用 大 数据 技术 在 海量 的 \ 呈 频 北 据 中 进行 规律 预测 、 情 境 分 析 、 串 并 侦查 
和 时 空 分 析 等 。 在 智能 安防 领域 ， WN* 生 、 存 储 和 处 理 是 智能 安防 解决 方案 的 基础 ， 
站 所 以 在 信守 会 中 有 和 pe rT 


We 的 支持 。 


2.1.2 大 数据 > 
oe 取 大 数据 的 方法 有 很 多 ， 如 制作 网 络 疏 





















策 。 所 以 在 信息 社会 中 , 几 








虫 从 网 站 上 采 澡 、 从 RSS 反馈 或 者 从 Ari 中 得 到 数据 、 从 接收 设备 发 送 过 来 实测 数 
据 等 。 为 了 提高 数据 采集 的 效率 ， 还 可 以 使 用 公开 可 用 的 数据 源 。 常 用 的 数据 采集 方法 
有 如 下 几 种 。 
.DPI 采集 方法 
用 DPI 采集 方法 采集 的 数据 大 部 分 是 “ 裸 格式 ”的 数据 ， 即 数据 未 经 过 任何 处 理 ， 
可 能 包括 超 文本 传输 协议 (Hyper Text Transport Protocol，HTTP)、 文 件 传 输 协议 (File 
Transfer Protocol，FTP) 和 简单 邮件 传输 协议 (Simple Message Transfer Protocol， 
SMTP) 等 数据 ， 数 据 来 源 于 QQ、 微 信和 其 他 社交 媒体 的 数据 ， 或 来 自爱 奇 艺 、 腾 讯 视 
频 和 优酷 等 视频 提供 商 的 数据 。DPI 数据 采集 软件 主要 部 署 在 骨干 路 由 器 上 ， 用 于 采集 
底层 的 网 络 大 数据 。 目 前 有 一 些 可 用 来 分 析 DPI 采集 到 的 数据 的 开源 工具 ， 如 
nDPI 等 。 

2. 系统 日 志 采 集 方法 


很 多 企业 有 自己 的 业务 管理 平台 ， 它 们 每 天 会 产生 大 量 的 日 志 数 据 。 日志 采 集 系 统 
的 主要 功能 就 是 收集 业务 日 志 数据 ,为 决策 者 提供 在 线 和 离线 分 析 功能 。 这 种 日 志 采 集 

















软件 必须 具备 高 可 用 性 、 高 可 靠 性 和 高 可 扩展 性 等 基本 特性 ， 并 且 能 满足 每 秒 数 百 兆 字 
节 的 日 志 数 据 采 集 和 传输 需求 ， 如 Apache 的 Chukwa、Cloudera 的 Flume、Facebook 的 


Scribe， 这 三 种 日 志 采 集 系统 的 对 比 见 表 2. 1。 















































表 2.1 三 种 日 志 采集 系统 的 对 比 
日 志 采 集 系 统 Chukwa Flume Scribe 
公司 Apache Cloudera Facebook 
开源 时 间 2009. 11. 2009.7. 2008. 10. 
实现 语言 Java Java C/C 二 十 
代理 定期 向 收集 器 发 | ”代理 和 收集 器 之 间 均 
EE EE 容 
窑 错 性 。 | 送 数据 仿 移 量 ， 一 旦 发 | 有 容错 机 制 ， 并 提供 三 人 
生 故 障 ， 可 以 根据 偏 移 | 种 基本 的 可 靠 性 保 i 
量 继续 发 送 数据 机 制 l 
负载 均衡 无 使 用 Zoo ak 无 
可 扩展 性 好 好 
自 带 一 些 代 理 ， 如 获 A i 
代理 on 和 志 的 入 吉 i 代理 Thrift Client 需要 自己 实现 
合并 多 个 数据 源 对 
过 来 的 数据 ， 然 愤 直 系统 提供 很 广 让 本 
收入 时 到 eh G 可 以 直接 使 用 a 同人 Sener 
存储 DFS Re 直接 支持 HDFS 
Hadoop 系列 产 | 设计 简单 ， 易 于 使 用 ， 但 是 
总 体 评价 NG 直接 支持 Hadoop， ee 容错 性 和 负载 均衡 方面 不 够 理 
有 待 完善 想 ， 且 资料 较 早 





3. 网 络 数据 采集 方法 


网 络 数据 采集 方法 主要 针对 非 结 构 化 数据 的 采集 ， 是 指 通过 网 络 怜 虫 
或 网 站 公开 应 用 程序 接口 (Application Program Interface，API) 等 方式 从 网 
站 上 获取 数据 信息 。 该 方法 可 以 将 非 结 构 化 数据 从 网 页 中 抽取 出 来 ， 将 其 








【网 络 数 据 


采集 之 放出 】〗 存储 为 统一 的 本 地 数据 文件 ， 并 以 结构 化 的 方式 存储 。 它 支持 图 片 、 音 频 
和 视频 等 文件 或 附件 的 采集 ， 附件 与 正文 可 以 自动 关联 。 用 该 方法 进行 数据 采集 和 处 理 
的 基本 步骤 如 图 2. 1 所 示 。 

(1) 将 需要 抓 取 数据 网 站 的 统一 资源 定位 符 CUniform Resource Locator，URL) 信息 
写 人 URL 队列 。 





(2) 疏 虫 从 URL 队列 中 获取 需要 抓 取 数据 网 站 的 Site URL 信息 。 
(3) 疏 虫 从 Internet 抓 取 对 应 网 页 内 容 . 并 抽取 其 特定 属性 的 内 容 值 。 








(4) 疏 虫 将 从 网 页 中 抽取 的 数据 写 人 数据 库 。 

(5)DP(Data Process) 读 取 Spider Data， 并 进行 处 理 。 

(6)DP 将 处 理 后 的 数据 写 人 数据 库 。 

目前 网 络 数据 采集 的 关键 技术 是 链接 过 滤 ， 其 实质 是 判断 当前 链接 是 否 在 已 经 抓 取 
过 的 链接 集合 中 。 在 采集 网 页 大 数据 时 ， 可 以 采用 布 隆 过 滤器 过 滤 链 接 。 








图 2.1 用 网 络 数据 采集 方法 进行 氏 坟 大 集 和 处 理 的 基本 步 


4. 数据 库 采 集 方法 丰 
一 些 企业 使 用 传统 关系 型 数 No 等 存储 数据 。 除 此 之 外 ，Redis 和 
MongoDB 等 eh 的 采集 。 使 采集 方法 时 ， 通 常 在 采集 


端 部 署 大 量 数据 库 ， 并 思考 何在 0 行 负载 均衡 和 分 片 。 

5. 其 他 数据 采集 广 ea 

企业 生产 经 营 数据 或 学 科研 究 数据 等 要 求 比 较 高 的 数据 ， 可 以 通过 与 企业 
或 研究 机 构 合 人 特定 的 系统 接口 采 阁 尽管 大 数据 技术 层面 的 应 用 无 限 广 阔 ， 但 


由 于 受到 数据 生 集 的 限制 ， 能 够 用 于 商业 应 Rb te 
采集 和 处 理 的 数据 。 因 此 ， 解决 大 数据 的 隐私 问题 是 数据 采集 技术 的 重要 目标 之 一 。 现 

ee 
虑 借助 百度 、 阿 里 巴巴 、 腾 讯 等 第 三 方 数据 平台 解决 外 部 数据 采集 难题 。 例 如 ， 百 度 推 
出 的 疾病 预测 大 数据 产品 ， 可 以 对 全 国 不 同 的 区 域 进行 全 面 监控 ,智能 化 地 列 出 某 一 地 
级 市 或 某 区 域 的 流感 、 肝 炎 和 肺结核 等 常见 疾病 的 活跃 度 、 趋 势 图 等 ， 进 而 有 针对 性 地 
进行 预防 ， 从 而 降低 染病 的 概率 。 国 # 交 加 


2.1.3 大 数据 的 采集 平台 
随 着 数据 旦 爆炸 式 的 增长 ， 采 集 工作 面临 的 挑战 日 益 增 大 ,这 就 加 上 


要 求 采集 平台 具有 高 可 靠 性 和 高 扩展 性 。 常 用 的 大 数据 采集 平台 如 下 。 【六 款 大 数据 采集 
平台 的 架构 分 析 】 












1. Apache Flume 


Apache Flume 是 Apache 旗下 的 一 款 开 源 、 高 可 靠 、 高 扩展 、 易 管理 和 支持 客户 扩 
展 的 数据 采集 平台 。 它 使 用 JRuby 构建 ， 所 以 依赖 Java 运行 环境 ， 其 最 初 是 由 Cloudera 











中 的 工程 师 设计 用 来 合并 日 志 数 据 的 系统 ， 后 来 逐渐 发 展 到 用 于 处 
有 理 流 数据 事件 。Apache Flume 的 结构 是 一 个 分 布 式 的 管道 ， 可 以 
加 名 线 。。 和 作 在 数据 源 和 数据 结果 之 间 有 一 个 Agcnt 的 网 络 ， 支 持 数据 路 
【基于 大 数据 的 Flume 由 ,每 一 个 Agent 都 由 Source、Channel 和 Sink 组 成 。Apache 
实时 数据 采集 平台 〗 ”Flume 的 结构 如 图 2. 2 所 示 。 







图 2.2 Apache Flume 
2. Fluented 


Fluentd 也 是 开源 的 数据 采集 平台 ,是 Ruby 语言 开发 的 ， 使 用 JS 对 象 简谱 (Java 
Script Object Notation，JSON) 文 件 日 用 数据 。Fluentd 的 可 插 拔 架构 支持 不 同 种 
类 、 不 同 格式 的 数据 源 和 数据 输出 .S 同 YN 具 备 高 可 靠 性 和 很 好 的 扩展 性 。Fluentd 从 各 方 
面 看 都 很 像 Apache Flume， 它 ， nt Buffer 和 oa Apache Flume 的 Source、 
Channel 和 Sink 十 分 类 似 。 区 别 是 Fluentd CfRuby 语言 开发 ， 封 装 小 一 些 ， 
但 是 也 带 来 了 跨 平台 的 油 题 .不 支持 Windows 


3. Logstash -本 


这 
著名 的 jo ele ELK(ElasticSearcHJALogstash，Kibana) 中 的 工 就 代表 Logstash。 
Logstash 是 用 /NRuby 语言 开发 的 , 运行 时 依赖 Java 虚拟 机 (Java Virtual Machine， 
JVM) 。 在 大 部 分 情况 下 ，ELK 作为 一 个 栈 使 用 ， 所 以 当 一 个 数据 系统 使 用 ElasticSearch 
时 ，Logstash 是 不 二 之 选 。 


4. Splunk Forwarder 


在 商业 化 的 大 数据 平台 产品 中 ，Splunk Forwarder 可 以 很 好 地 支持 数据 采集 、 存 储 、 
分 析 和 可 视 化 等 全 生命 周期 的 工作 。 它 是 一 个 分 布 式 机 器 数据 平台 ， 主 要 有 如 下 三 个 
角色 。 

(1)Search Head: 负责 数据 的 搜索 和 处 理 ， 提 供 搜索 时 的 信息 抽取 。 

(2)Indexer: 负责 数据 的 存储 和 索引 。 

(3)Forwarder: 负责 数据 的 采集 、 清 洗 、 变 形 ， 并 发 送 给 Indexer。 

Splunk Forwarder 支持 Syslog、TCP/UDP、Spooling， 用 户 可 以 通过 开发 Input 和 
Modular Input 来 获取 特定 的 数据 。 在 Splunk Forwarder 提供 的 软件 仓库 里 有 很 多 成 熟 的 
数据 采集 应 用 ， 如 亚马逊 云 服 务 (AWS) 、 数 据 库 (DBConnect) 等 ， 可 以 方便 地 从 云 或 者 
数据 库 中 获取 数据 进入 Splunk Forwarder 的 数据 平台 ， 以 方便 进行 数据 分 析 。 


























5. Chukwa 


Chukwa 是 Apache 旗下 另 一 个 开源 的 数据 收集 平台 ， 是 基于 Hadoop 的 HDFS 和 

MapReduce 来 构建 的 ， 具 有 扩展 性 和 可 靠 性 。Chukwa 支持 对 数据 的 展示 、 分 析 和 监视 ， 
其 主要 单元 有 Agent、Collector、DataSink 、Archive Builder 和 Demux 等 。 
以 上 介绍 的 五 种 大 数据 采集 平台 几乎 都 可 以 达到 高 可 靠 和 高 扩展 的 性 能 要 求 ， 均 
象 出 了 输入 、 缓 冲 和 输出 的 架构 ， 利 用 分 布 式 网 络 进行 连接 ， 其 中 Flume 和 Fluentd 应 用 
较 多 。 如 果 使 用 ElasticSearch， 由 于 ELK 栈 有 着 良好 的 集成 优势 ， 所 以 Logstash 是 最 佳 
选择 。 由 于 项 目 不 活跃 ，Chukwa 和 Scribe 的 使 用 度 不 高 。Splunk 作为 一 款 优秀 的 商业 
产品 ， 可 以 支持 数据 采集 、 数 据 存储 、 数 据 分 析 和 数据 可 视 化 全 过 程 工作 ,但 其 数据 采 
集 功 能 还 存在 一 定 的 限制 ， 有 待 于 优化 。 
































2.2 大 数据 的 预 处 理 技术 


要 对 海量 的 数据 进行 有 效 的 分 析 ， 应 该 将 来 
集中 的 大 型 分 布 式 数据 库 或 者 分 布 式 存储 集群 壬 在 导入 的 基础 上 做 【数据 预 处 理 】 
一 些 简单 的 清洗 和 预 处 理工 作 。 et 9 特点 是 导入 的 数据 量 大 ,通常 用 户 
每 秒 的 导 和 人 量 可 达到 百 兆 甚至 千 兆 级 的 多 样 性 给 数据 分 析 和 处 理 带 来 了 极 大 
的 困难 ， 对 大 数据 进行 预 处 理 可 忆 人 为 以 
后 的 数据 2 处 理 技术 主 据 清洗 、 数 据 集成 、 数 据 
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yy 有 
数据 清洗 是 TR a 据 之 后 ， 对 数据 进行 抽取 、 转 换 和 集成 
加 载 的 过 程 。 浴 这 站 过程 中 ， 除 了 更 正 、 修 复 系统 中 的 一 些 错误 数据 ， 更 多 的 是 对 数据 


进行 归并 整理 ,并 将 其 存储 到 新 的 介质 中 。 常 见 的 数据 质量 问题 可 以 根据 数据 源 的 多 少 
和 所 属 层次 分 为 以 下 四 类 。 

(1) 单 数据 源 的 定义 层 。 违 背 字 段 约束 条 件 ( 如 日 期 出 现 1 月 0 日 )、 字 段 属性 依赖 冲 
突 ( 如 两 条 记录 描述 同一 个 人 的 某 一 个 属性 ,但 数值 不 一 致 )、 违 反 唯 一 性 (如 相同 主键 ID 
出 现 多 次 )。 

(2) 单 数据 源 的 实例 层 。 单 个 属性 值 含有 过 多 信息 、 拼 写 错误 、 空 白 值 、 品 声 数据 、 
数据 重复 、 过 时 数据 等 。 

(3) 多 数据 源 的 定义 层 。 同 一 个 实体 的 不 同 称呼 (如 笔名 和 真名 )、 同 一 种 属性 的 不 同 
定义 (如 字段 长 度 定义 不 一 致 、 字 段 类 型 不 一 致 等 ) 。 

(4) 多 数据 源 的 实例 层 。 数 据 的 维度 、 粒 度 不 一 致 (如 有 的 按 GB 记录 存储 量 ， 有 的 按 
TB 记录 存储 量 ; 有 的 按照 年 度 统计 ， 有 的 按照 月 份 统计 )、 数 据 重复 和 拼写 错误 。 

此 外 ,在 数据 处 理 过 程 中 还 会 产生 “二 次 数据 *， 包 括 噪声 数据 、 数 据 重 复 或 错误 的 
情况 。 数 据 的 调整 和 清洗 涉及 格式 、 测 量 单位 和 数据 标准 化 与 归 一 化 。 数 据 不 确定 性 有 
两 方面 含义 ， 即 数据 自身 的 不 确定 性 和 数据 属性 值 的 不 确定 性 。 前 者 可 用 概率 描述 ， 后 




















者 有 多 种 描述 方式 ， 如 描述 属性 值 的 概率 密度 函数 、 以 方差 为 代表 的 统计 值 等 。 

对 于 数据 质量 中 普遍 存在 的 空缺 值 、 噪 声 值 和 不 一 致 数据 ， 可 以 采用 传统 的 统计 学 
方法 、 基 于 聚 类 的 方法 、 基 于 距离 的 方法 、 基 于 分 类 的 方法 和 基于 关联 规则 的 方法 等 来 
实现 数据 清洗 。 传 统 数据 清洗 和 大 数据 清洗 方法 的 对 比 见 表 2.2。 


表 2.2 传统 数据 清洗 和 大 数据 清洗 方法 的 对 比 











类 型 ”| 传统 数据 清洗 大 数据 清洗 

方法 统计 学 聚 类 距离 分 类 关联 规则 
将 属性 当 作 随 | ”根据 数据 相似 | 。 使 用 距离 度量 | 设计 一 个 可 以 | 定义 数据 之 间 的 

主要 思想 | 机 变量 ， 通 过 置 | 度 将 数据 分 组 ，| 来 量化 数据 对 象 | 区 分 正常 数据 和 | 关联 规则 ， 不 符合 

”| 信 区 间 来 判断 值 | 发 现 不 能 归并 到 之 间 的 相似 性 。 | 异常 数据 的 分 类 | 规则 的 数据 被 认为 
的 正 误 分 组 的 孤立 点 模型 是 异常 数据 





对 多 种 类 型 的 
SS 数据 的 |。 可 以 发 现 数据 
优点 “| 可 以 随机 选取 | 数据 有 效 ， 具 有 EN id We 


运作 性 关联 性 
有 效 性 高 度 依 NN 
赖 于 使 用 的 聚 类 | ~ 


均 分 得 到 的 分 类 强 规则 不 一 定 
吕 无 法 | 器 可 能 过 拟 合 是 正确 的 规则 





参数 模型 复杂 
缺点 方法 ， 对 大 型 
果 吉 归 芝 次 遂 代 
时 需要 多 次 近代 | 损 集 米 说 下 




















较 大 六 
人 测 、 空 值 的 处 理 、 错 误 值 的 
处 理 、 不 一 致 数据 的 处 丙 Se 常 记录 的 检测 和 重复 数据 的 检测 


(2) 空 值 般 采 用 估算 方法 ， 僻 如 采用 均值 、 众 数 、 最 大 值 、 最 小 值 和 中 位 
数 填充 。 但 估 和 误差， 如 果 空 值 较 多 ， 则 结果 偏离 较 大 。 

(3) 错 误 值 的 处 理 。 通 常 采用 统计 方法 来 处 理 ， 如 偏差 分 析 、 回 归 方程 、 正 态 分 布 等 。 

(4) 不 一 致 数据 的 处 理 。 主 要 体现 为 数据 不 满足 完整 性 约束 ， 可 以 通过 分 析 数 据 字 典 、 
元 数据 等 整理 并 修正 数据 之 间 的 关系 ,不一致 数据 通常 是 由 于 缺乏 数据 标准 而 产生 的 。 

(5) 重 复数 据 的 检测 。 其 算法 可 以 分 为 基本 的 字段 匹配 算法 、 递 归 的 字段 匹配 算法 、 
Smith-Waterman 算法 、 基 于 编辑 距离 的 字段 匹配 算法 和 改进 余弦 相似 度 函 数 。 


2.2.2 数据 集成 


数据 集成 合并 多 个 数据 源 中 的 数据 ,存放 在 一 个 数据 存储 (如 数据 仓 
库 ) 中 ， 这 些 数据 源 可 能 包括 多 个 数据 库 、 数 据 立 方 体 或 一 般 文件 。 进 行 数 
[数据 集 皮 。 据 集 成 需要 注意 以 下 三 个 问题 。 
六 和 四] 01) 模式 匹配 。 现 实 世界 的 等 价 实体 来 自 多 个 信息 源 ， 不 同 实体 如 何 才 
能 正确 匹配 涉及 实体 识别 问题 每 个 属性 的 元 数据 包括 名 字 、 含 义 、 数 据 类 型 和 属性 的 
允许 取 值 范围 ， 以 及 处 理 空白 、 零 或 NULL 值 的 空 值 规则 。 通常， 数据 库 或 者 数据 仓库 





为 数据 清洗 的 两 个 问题 。 
但 解决 室 人 亲信 和 不 到 数 所 的 方法 。 






































中 的 元 数据 可 以 帮助 避免 模式 集成 的 错误 ， 还 可 以 用 来 帮助 变换 数据 。 

(2) 数 据 元 余 。 如 果 一 个 属性 能 由 另 一 个 或 男 一 组 属性 “导出 ”， 那 么 这 个 属性 可 能 
就 是 宛 余 的 。 属 性 命名 的 不 一 臻 也 可 能 导致 数据 集中 的 元 余 。 有 些 宛 余 可 以 被 相关 分 析 
检测 到 ， 例 如 给 定 两 个 属性 ， 根 据 可 用 的 数据 进行 分 析 ， 可 以 度量 一 个 属性 能 在 多 大 程 
度 上 包含 另 一 个 质 入 ， 味 准 总 所 全 用 天 访 稚 帮 。 歼 介 司 信 亿 用 和 关系 区 和 汤 祥 38， 它 和 
均 可 评估 一 个 属性 的 值 如 何 随 另 一 个 属性 的 值 变化 。 
(3) 数 据 值 冲突 的 检测 与 处 理 。 对 于 现实 世界 的 同一 实体 ， 来 自 不 同 数据 源 的 属性 值 
可 能 不 同 ， 这 可 能 是 由 表示 、 尺 度 或 编码 等 方面 的 差异 造成 的 。 例 如 ， 长 度 在 一 个 系统 
中 用 千 米 衡 量 ， 在 另 一 个 系统 中 却 用 英里 衡量 。 


2.2.3 数据 变换 
ee 

















(1) 平 滑 。 去 除数 据 中 的 噪声 (运用 分 箱 、 聚 类 、 回 归 签 

(2) 聚 集 。 对 数据 进行 汇总 和 聚集 ， 常 采用 数据 文 
sum()、min() 和 max() 等 函数 对 数据 进行 操作 。 

(3) 数 据 概 化 。 使 用 概念 分 层 ， 用 更 高 层 来 取代 低层 次 的 “原始 ”数据 。 主 


要 原因 是 在 数据 处 理 和 分 析 过 程 中 可 能 不 需 尾 细 化 的 概念 ， 它 们 的 存在 反而 会 使 数 
据 处 理 和 分 析 过 程 花费 更 多 时 间 ， AR 人 度 。 例 如 ，street 可 以 概 化 为 较 高 层 的 概 
念 ， 如 city 或 country 。 ph 

(4) 规 范 化 。 将 数据 按 比 使 之 落 入 一 个 小 Wn 

(5) 属 性 构造 。 由 给 定 构造 添加 新 的 属 高 数据 处 理 和 分 析 的 精度 及 对 
高 维 数据 结构 的 理解 i 可 以 构造 area 属性 。 通 过 属性 构 


造 可 以 增强 数据 系 ， 有 利于 


， 如 运用 abg() 、count()、 







2. 2.4 级 


因为 被 分 析 的 数据 对 象 往往 比较 大 ， 分 析 与 挖掘 会 特别 耗 时 甚至 不 能 进行 ， 所 以 非 
常 有 必要 对 数据 进行 归 约 。 通 过 对 数据 进行 归 约 处 理 ， 可 以 减 小 对 象 数据 集 ， 从 原 有 的 
庞大 数据 集中 获得 一 个 精简 的 数据 集 ， 并 使 这 一 精简 的 数据 集 保持 原 有 的 完整 性 ， 以 提 
高 数据 挖掘 的 效率 。 数 据 归 约 的 方法 一 般 有 数据 立方 体 聚 集 、 维 归 约 和 特征 值 归 约 。 

1. 数据 立方 体 聚 集 


数据 立方 体 是 一 类 多 维和 矩阵 ， 可 以 让 用 户 从 多 个 角度 探索 和 分 析 数 据 集 ， 通 常 同时 
考虑 三 个 因素 (维度 )。 当 试图 从 一 堆 数据 中 提取 信息 时 ， 需 要 工具 来 寻找 有 关联 和 重要 
的 信息 及 探讨 不 同 的 情景 。 一 份 报告 ,无 论 是 印 在 纸 上 还 是 出 现在 屏幕 上 ， 都 是 数据 的 
二 维 表示 ， 是 行 和 列 构成 的 表格 ， 只 需要 考虑 两 个 因素 ， 但 在 真实 世界 中 往往 需要 更 强 
的 工具 。 数 据 立 方 体 是 二 维 表格 的 多 维 扩展 ， 如 同 几 何 学 中 立方 体 是 正方 形 的 三 维 扩展 。 
立方 体 ”这 个 词 让 人 们 想起 三 维 的 物体 ， 也 可 以 把 三 维 的 数据 立方 体 看 作 一 组 类 似 的 互 
相 倒 加 起 来 的 二 维 表格 。 但 是 数据 立方 体 不 局 限于 三 个 维度 ,大 多 数 OLAP 系统 能 用 多 
个 维度 构建 数据 立方 体 ， 例如 ,微软 的 SQL Server 2000 Analysis Services 工具 支持 64 个 











维度 数 ( 虽 然 在 空间 或 几何 范畴 想象 更 高 维度 的 实体 还 是 一 个 问题 )。 在 实际 中 ， 常 常用 
多 个 维度 来 构建 数据 立方 体 ， 但 人 们 倾向 于 一 次 只 看 三 个 维度 。 数 据 立 方 体 之 所 以 有 价 
值 ， 是 因为 人 们 能 在 一 个 或 多 个 维度 上 给 立方 体 做 索引 。 图 2. 3 为 数据 立方 体 的 示例 ， 其 
中 存放 着 多 维 聚集 信息 。 每 个 单元 存放 一 个 聚集 值 ， 对 应 多 维 空间 的 一 个 数据 点 。 每 个 
属性 可 能 存在 概念 分 层 ， 人 允许 在 多 个 层 进行 数据 分 析 。 最 底层 的 数据 立方 体 称 为 基本 方 
体 ， 最 高 层 的 数据 立方 体 称 为 顶点 方 体 ， 不 同 层 创建 的 数据 立方 体 称 为 方 体 ， 每 个 数据 
立方 体 可 以 看 作 方 体 的 格 。 











四 对 攻 扫 人才 可 以 实 A. 在 具体 操作 时 有 多 种 方式 ， 例 
如 ， 既 可 以 针对 数据 浆 方 体 中 的 最 低级 别 天方 中 的 不 各 
行 聚 集 ， 从 而 逃 产 步 防 小 处 理 数据 的 尺寸 站 其 作 操 作 时 ， 应 该 引用 适当 的 级 别 ， 便 于 解决 问 
题 。 图 2. 4 所 示 数 据 是 某 商场 2000 广 2002 年 每 季度 的 销售 额 。 在 对 其 进行 分 析 时 ， 
可 以 对 数据 立方 体 进行 聚集 ， 汇 总 每 年 的 总 销售 额 ， 而 不 是 每 季度 的 总 销售 额 。 如 图 2. 4 右 
半 部 分 所 示 ， 聚 集 后 数据 量 明显 减少 , 但 没有 丢失 分 析 任 务 所 需 的 信息 。 当 需要 查询 季度 销 
售 额 的 总 和 或 者 年 销售 额 时 ， 由 于 有 了 聚集 值 ， 可 以 直接 得 到 结果 。 
2. 维 归 约 


人 们 收集 到 的 原始 数据 包含 的 属性 往往 很 多 ， 但 是 大 部 分 与 所 要 开展 的 挖 据 任 务 无 关 。 
例如 ， 为 了 对 观看 广告 后 购买 新 款 CD 的 顾客 进行 分 类 ， 收 集 大 量 数据 ， 分 析 的 内 容 与 年 
龄 、 顾 客 个 人 喜好 有 关 ， 但 通常 与 顾客 的 电话 号 码 无 关 。 宛 余 属性 的 存在 会 增加 处 理 的 数据 
量 、 减 慢 挖 气 速 度 。 维 归 约 是 指 通过 删除 不 相关 的 属性 来 减少 数据 挖 据 要 处 理 的 数据 量 的 过 
程 。 例 如 ,挖掘 学 生 选 课 与 所 取得 的 成 绩 的 关系 时 ， 学 生 的 电话 号 码 与 挖 气 任 务 无 关 ， 可 以 
去 掉 。 维 归 约 一 般 可 以 采用 属性 子 集 选择 和 主 成 分 分 析 法 来 实现 。 

3. 特征 值 归 约 


桂 征 值 归 约 又 称 特征 值 离散 化 技术 ， 它 将 具有 连续 型 特征 的 值 离散 化 ,使 之 成 为 少 
量 的 区 间 ， 每 个 区 间 映 射 到 一 个 离散 符号 。 特 征 值 归 约 的 优势 在 于 简化 了 数据 描述 ， 易 























于 理解 数据 和 最 终 的 挖掘 结果 。 特 征 值 归 约 方法 可 以 是 有 参数 的 ， 也 可 以 是 无 参数 的 。 
有 参数 方法 是 指使 用 一 个 模型 来 评估 数据 ， 只 需 存 放 参 数 ， 而 不 需要 存放 实际 数据 。 


分 季度 销售 额 


对 年 度 内 的 各 季度 年 从 销售 新 
0 数据 进行 求 和 聚集 





一 季度 22.4 万 元 2000 年 156.8 万 元 
二 季度 40.8 万 元 


三 季度 35 万 元 
四 季度 58.6 万 元 2001 年 235.6 万 元 


2002 359.4 万 元 








图 2.4 J 
有 参数 的 特征 值 归 约 方法 有 以 下 两 种 。 

(DD 回归: 包括 线性 回归 和 多 元 回归 。_ 

(2) 对 数 线性 模型 ， 类似 于 离散 多 维 PD 

无 参数 的 特征 值 归 约 方法 有 以 下 
(1) 直 方 图 : 采用 分 箱 近似 






， 其 中 V 直方 图 是 较 精确 和 实 





用 的 。 二 
pe 伏 ， 使 在 一 个 聚 类 中 的 对 象 “ 类 


似 "， 而 与 其 他 聚 类 中 的 傅 获 一 ' 不 类 似 "。 在 数据 用 数据 的 聚 类 代替 实际 数据 。 
(3) 抽 样 : 用 ee 
RS 分 层 抽样 等 。 PD 


集 ， 如 简单 抽样 N 个 样本 (类 似 于 样 
2.3 数据 仓库 与 ETL 工具 


近 些 年 ， 许 多 企业 在 建设 、 和 运行 和 维护 事务 型 系统 的 过 程 中 , 不仅 投 入 了 大 量 的 时 
间 和 资金 ， 而 且 累 积 了 很 多 难以 利用 的 复杂 数据 ， 此 时 人 迫切 需要 把 数据 从 事务 型 系统 中 


抽取 出 来 ， 以 提高 其 利用 率 。 在 此 趋势 下 ,数据 仓库 应 运 而 生 。 回 间 世 回 
2.3.1 数据 仓库 的 组 成 部 


数据 仓库 是 一 种 OLAP 数据 库 ， 它 通过 ETL (Extract-Transform- 加 
Load) 从 联机 事务 处 理 (On-Line Transactional Processing，OLTP) 数 据 库 中 【数据 仓库 
获得 数据 ， 优 化 整理 后 创建 一 个 分 析 平 台 ， 根 据 用 户 需 求 提供 不 同类 型 的 “信用 架构 
数据 集合 ,用 于 数据 的 深度 理解 与 分 析 。 
数据 仓库 由 数据 仓库 数据 库 、 数 据 抽取 /转换 、 元 数据 、 访 问 工具 、 数 据 集 市 、 数 据 
仓库 管理 和 信息 发 布 系统 七 个 部 分 组 成 。 


























(1) 数 据 仓库 数据 库 。 是 整个 数据 仓库 环境 的 核心 和 存放 数据 的 地 方 。 与 事务 型 数据 
库 相 比 ， 其 突出 特点 就 是 支持 海量 数据 和 检索 速度 快 。 

(2) 数 据 抽取 /转换 。 把 数据 从 各 种 各 样 的 存储 中 抽取 出 来 ， 进 行 必要 的 转换 和 整理 ， 
再 存放 到 数据 仓库 内 。 主 要 操作 包括 删除 对 决策 没有 意义 的 数据 段 、 统 一 数据 名 称 和 定 
义 、 计 算 衍生 数据 、 给 缺失 数据 赋 默 认 值 等 。 

53) 元 数据 。 描 述 数据 仓库 中 的 数据 ， 是 数据 仓库 运行 和 维护 的 中 心 。 数 据 仓库 服务 
器 利用 元 数据 来 存储 和 更 新 数据 ， 用 户 通过 元 数据 来 了 解 和 访问 数据 。 元 数据 是 描述 数 
据 的 数据 ， 全 面 刻画 数据 的 内 容 、 结 构 、 获 取 方 法 和 访问 方法 等 。 元 数据 的 存在 是 为 了 
更 有 效 地 使 用 数据 ， 元 数据 提供 了 一 个 信息 目录 ,支持 信息 检索 、 软 件 配置 、 不 同系 统 
之 间 的 数据 交互 等 。 在 数据 仓库 系统 中 ， 元 数据 描述 数据 仓库 中 的 数据 结构 和 构建 方法 ， 
可 以 帮助 数据 仓库 管理 员 和 数据 仓库 开发 人 员 非 常 方便 地 找到 所 需 的 数据 。 元 数据 有 多 
种 分 类 标准 ， 主 要 包括 元 数据 的 领域 相关 性 、 应 用 场合 、 as， 

名 领域 相关 性 。 与 特定 领域 相关 的 元 数据 ， i 域内 的 公共 属性 ; 与 
特定 领域 无 关 的 元 数据 ,描述 所 有 数据 的 公共 属性 关 的 元 数据 ， 描 述 信息 和 
元 信息 建 模 过 程 的 数据 ， 又 可 进一步 分 为 横向 模 二 当 不 同 的 信息 模型 
之 间 进 行 互通 时 ,需要 模型 中 各 个 层 的 关联 撕 


模型 关联 元 数据 就 是 综合 现 有 的 
两 个 或 多 个 信息 模型 的 元 数据 ， ol N 之 间 的 交互 、 从 多 个 数据 源 中 提取 数 
据 ， 当 不 同 的 层 采 用 不 同 的 模型 时 ， 也 必 层 的 结构 描述 ， 上 下 层 之 间 对 应 关联 。 纵 
ER 信息 层 之 间 的 无数 据 。 其 他 元 数据 有 系统 硬 
ss 述 S We 
@ 应 用 场合 。 数 据 元 又 称 为 信息 系统 弄 富 息 系统 使 用 元 数据 描述 信 
源 ， 以 按照 用 户 需求 检 顽 ~ 存 取 和 理解 源 信息 A 在 新 的 应 用 环境 中 使 用 信息 ， 支 持 


整个 信息 系统 的 程 元 数据 ， 又 称 千 构 元 数据 ,是 关于 应 用 系统 的 信息 
和 人 关系 风 和 , 存 取 和 管理 数据 : 软件 结构 中 包含 描述 各 个 组 件 接口 、 功能 
和 







































下 












和 依赖 关系 这 些 元 数据 保证 了 税 件 组 件 的 灵活 、 动态 配置 。 

回 具体 内 容 。 内 容 (Content)， 识 别 、 定 义 、 描 述 基本 数据 元 素 ， 包括 数据 单元 、 合 
法 值 域 等 ;结构 (Structure)， 在 相关 范围 内 定义 数据 元 素 的 逻辑 概念 集合 ; 表达 (Repre- 
sentation)， 描 述 每 个 值 域 学 (多 为 技术 相关 ) 的 物理 表示 ,以 及 数据 元 素 集合 的 物理 存储 
结构 ;文法 (Context)， 提 供 基础 数据 的 族 系 和 属性 评估 ,包括 所 有 与 基础 数据 的 收集 、 
处 理 和 使 用 相关 的 信息 。 

@ 具体 用 途 。 技 术 元 数据 (Technical Metadata) 是 存储 关于 数据 仓库 系统 技术 细节 的 
数据 ， 用 于 开发 和 管理 数据 仓库 ， 保 证 数据 仓库 系统 的 正常 运行 ， 业务 元 数据 (Business 
Metadata) 是 从 业务 角度 描述 数据 仓库 中 的 数据 ， 提 供 介 于 使 用 者 和 实际 系统 之 间 的 语义 
层 ， 帮 助 数据 仓库 使 用 人 员 理 解数 据 仓 库 中 的 数据 。 

(4) 访 问 工 具 。 为 用 户 访问 数据 仓库 提供 工具 支撑 ， 如 数据 查询 、 应 用 开发 、 管 理 信 
息 系 统 、OLAP 和 数据 挖掘 等 。 

(5) 数 据 集 市。 在 数据 仓库 的 实施 过 程 中 ,根据 主题 将 数据 仓库 划分 为 多 个 数据 集 市 ， 从 

一 个 部 门 的 数据 集 市 着 手 ， 再 用 几 个 数据 集 市 组 成 一 个 完整 的 数据 仓库 ， 有 利于 数据 仓库 的 负 
载 均衡 ， 保 证 了 使 用 效率 。 数 据 集 市 是 为 了 特定 的 应 用 目的 或 应 用 范围 ， 面 向 企业 的 某 个 部 门 




















(或 主题 )， 在 逻辑 或 物理 上 划分 出 来 的 数据 仓库 的 数据 子 集 ， 也 可 称 为 部 门 数据 或 主题 数据 。 
数据 仓库 面向 整个 企业 的 分 析 应 用 ， 保 存 了 大 量 的 历史 数据 。 在 实际 应 用 中 ,不 同 部 门 的 用 户 
可 能 只 使 用 其 中 的 部 分 数据 ， 顾 及 应 用 的 处 理 速度 和 执行 效率 ， 可 以 分 离 出 这 部 分 数据 ， 构 建 
数据 集 市 。 在 数据 集 市 中 ,数据 统一 来 自 数据 仓库 ,用 户 无 须 到 数据 仓库 的 全 局 海量 数据 中 查 
询 ， 而 只 需 在 与 本 部 门 有 关 的 局 部 数据 集合 中 查询 即 可 。 在 实施 不 同 的 数据 集 市 时 ， 相 同 含义 
的 字段 定义 一 定 要 相 容 ， 这 样 实施 数据 仓库 时 才 不 会 出 现 问题 。 

(6) 数 据 仓库 管理 。 包 括 安 全 和 特权 管理 、 更 新 跟踪 数据 、 检 查 数 据 质量 、 管 理 和 更 
新 元 数据 、 审 计 和 报告 数据 仓库 的 使 用 和 状态 、 删 除数 据 、 分 发 数据 和 存储 管理 等 。 

57) 信息 发 布 系统 。 把 数据 仓库 中 的 数据 或 其 他 相关 数据 发 送 到 不 同 的 地 点 。 


2.3.2 数据 仓库 的 数据 模型 
数据 模型 是 对 现实 世界 的 一 种 抽象 ， 根 据 抽象 程度 的 刷 司 ， 


数据 模型 。 类 似 于 关系 型 数据 库 的 数据 模型 ， et. 型 
模型 和 物理 模型 。 目 前 ， 人 在 逻辑 模型 。 


1. 概念 模型 


概念 模型 是 客观 世界 到 计算 机 系统 的 一 最 常用 的 表示 方法 是 实体 -联系 
(Entity Relationship，ER) 图 。 般 是 在 数据 库 的 基础 上 建立 的 ， 所 以 其 概 


| 














了 不 同 抽象 层次 的 





念 模型 与 一 般 关 系 型 数据 库 的 概念 






2, 逻辑 模型 

刘 辑 模型 是 数据 的 逻辑 其 榴 ， 等 。 数 据 仓库 的 逻辑 横 型 是 多 
维 模型 ， a 上 对 应 的 模式 定义 。 数 据 仓库 的 外 
辑 模 型 分 为 星 形 Yodel 欧式 ， 三 者 均 以 事实 表 为 中 心 ， 不 同 之 
处 是 外 围 维 表 沁 合 的 关系 存在 差异 。 

(1) 星 形 村 


星 形 模式 的 每 个 维度 都 对 应 一 个 唯一 的 维 表 ， 维 的 层次 关系 全 部 通过 维 表 中 的 字段 
实现 ， 所 有 与 某 个 事实 有 关 的 维 都 通过 该 维度 对 应 的 维 表 直接 与 事实 表 关联 ， 所 有 维 表 
的 主 关键 字 组 合 起 来 作为 事实 表 的 关键 字 。 星 形 模式 的 维 表 只 与 事实 表 发 生 关联 ， 维 表 
与 维 表 之 间 没 有 任何 联系 。 星 形 模式 示意 如 图 2.5 所 示 。 








图 2.5 星 形 模式 示意 








星 形 模式 具有 如 下 特点 。 

名 维 表 非 规范 化 。 维 表 保 存 了 该 维度 的 所 有 层次 信息 ， 减 少 了 查询 时 数据 关联 的 次 
数 ， 提 高 了 查询 效率 , 但 是 维 表 之 间 的 数据 共用 性 较 差 。 

加 事实 表 非 规范 化 。 所 有 维 表 都 直接 与 事实 表 关 联 ， 减少 了 查询 时 数据 关联 的 次 数 ， 
提高 了 查询 效率 ,但 是 限制 了 事实 表 中 关联 维 表 的 数量 。 关 联 的 维 表 数 量 过 多 将 会 使 数 
据 大 量 元 余 ， 同 时 使 对 事实 表 进 行 索 引 变 得 困难 。 

@ 维 表 与 事实 表 的 关系 是 一 对 多 或 一 对 一 。 维 表 中 的 主 关键 字 在 事实 表 中 作为 外 关 
键 字 存在 ， 如 果 维 表 与 事实 表 之 间 是 多 对 多 的 关系 ， 则 不 能 直接 采用 星 形 模式 ， 必 须 对 
维 表 或 者 事实 表 进 行 处 理 ， 如 对 维 表 中 的 成 员 组 合 进行 编码 或 者 在 事实 表 中 加 入 新 的 字 
段 ， 都 要 求 成 员 的 组 合 数量 国定。 如果 数量 不 固定 ， 同 时 维 表 的 数据 量 又 很 大 ， 则 实现 


星 形 模式 较 困难 。 
(2) 雪 花形 模式 。 从 
hhh 。 事实 上 ， 维 表 只 与 

事实 表 关 联 是 规范 化 的 结果 。 如 果 将 经 常 合并 在 一 ; Ll 度 规 范 化 ， 星 形 模式 就 扩 

展 为 雪花 形 模式 。 
雪花 形 模式 将 维 表 规范 化 ， 原 有 的 维 表 

联 实现 维 的 层次 。 它 把 细节 数据 保留 在 关系 网 

rt 


任务 。 雪 花形 模式 示意 如 图 2. 6 RS 

















小 的 事实 表 ， 用 不 同 维 表 之 间 的 关 
库 的 事实 表 中 ， 聚 合 后 的 数据 也 保存 
盘 空 间 来 执行 一 些 专 为 多 维 数据 库 设 计 的 


x 





图 2.6 雪花 形 模式 示意 


雪花 形 模式 具有 如 下 特点 。 

名 维 表 的 规范 化 实现 了 维 表 重 用 ,简化 了 维护 工作 。 但 是 ,查询 时 使 用 雪花 形 模式 
要 比 星 形 模式 进行 更 多 的 关联 操作 ， 反 而 降低 了 查询 效率 。 

@ 在 雪花 形 模式 中 ， 有 些 维 表 并 不 直接 与 事实 表 关 联 ， 而 是 与 其 他 维 表 关 联 ， 特 别 
是 派生 维和 实体 属性 对 应 的 维 ， 这 样 就 减少 了 事实 表 中 的 一 条 记录 。 因 此 ， 当 维度 较 多 
特别 是 派生 维和 实体 属性 维 较 多 时 ,适合 使 用 雪花 形 模 式 。 但 是 ， 当 按 派 生 维和 实体 属 
性 维 进行 查询 时 ， 首 先 要 进行 维 表 之 间 的 关联 ,然后 与 事实 表 关联 ， 因 此 其 查询 效率 低 
于 星 形 模式 。 

@ 用 雪花 形 模式 可 以 实现 维 表 与 事实 表 之 间 多 对 多 的 关系 。 






































(3) 星 形 -雪花 形 模式 。 

由 以 上 描述 可 见 ， 星 形 模式 结构 简单 、 查 询 效率 高 ， 但 维 表 之 间 的 数据 共用 性差 ， 
限制 了 事实 表 中 关联 维 表 的 数量 ; 雪花 形 模式 通过 维 表 的 规范 化 ,增强 了 维 表 的 共用 性 ， 
但 查询 效率 低 。 二 者 各 有 优 缺 点 ， 却 可 以 在 一 定 程度 上 互补 。 例 如 ,电信 业务 中 ， 基 站 
和 受理 点 两 个 维 的 层次 关系 分 别 是 “地 市 一 区 县 一 基站 ”和 “地 市 一 区 县 一 受理 点 ”两 
个 维度 中 都 有 地 市 和 区 县 。 星 形 模式 把 地 市 和 区 县 分 别 保存 在 两 个 维 表 中 ， 同 一 信息 在 
基站 和 受理 点 之 间 的 统一 需要 通过 人 力 维护 ， 而 雪花 形 模式 可 以 通过 共用 维 表 轻 易 地 解 
决 这 个 问题 。 因 此 ， 在 实际 应 用 中 ， 经 常 综合 使 用 星 形 模式 和 雪花 形 模式 ， 即 星 形 -雪花 
形 模式 。 星 形 -雪花 形 模式 是 星 形 模式 和 雪花 形 模式 的 结合 ， 可 
将 其 中 的 一 部 分 维 表 规范 化 ， 提 取 一 些 公共 的 维 表 ， 这 样 就 打破 了 星 形 模式 只 个 带 
实 表 的 限制 ， 而 且 这 些 事 实 表 共享 全 部 或 部 分 维 表 ， 又 可 




















| 








骂 


化 维 表 的 维护 。 星 形 -零花 形 模式 示意 如 图 2.7 所 示 。 





3. 物理 模型 J 
Nt 体 实现 ， 2 数据 存储 结构 、 数 据 存放 位 置 


数据 仓库 的 物理 书 入 生 下 兴 计 信友 人 测 用 几 下， 如 表 分 区 、 


2.3.3 常用 的 ETL 工具 国名; 回 


ETL 是 数据 抽取 、 转 换 和 装载 的 过 程 ， 负 责 完成 数据 从 数据 源 向 目 图 和 bb 
标 数据 仓库 的 转化 ， 即 用 户 从 数据 源 抽 取 所 需 的 数据 ， 经 过 数据 清洗 , 按 ““ 
照 预 先 定义 的 数据 仓库 模型 ， 最 终 将 数据 加 载 入 数据 仓库 。ETL 的 过 程 如 【ETL 简介 】 
图 2. 8 所 示 。 应 用 和 系统 环境 的 不 同 决定 了 数据 ETL 特点 的 不 同 ，ETL 维系 着 数据 仓库 
中 数据 的 更 新 ， 而 数据 仓库 日 常 的 大 部 分 管理 和 维护 工作 就 是 保持 ETL 的 正常 和 稳定 。 








抽取 转换 装载 





图 2.8 ETL 的 过 程 








常见 的 开源 ETL 工具 如 下 。 
1. Apache Camel 


Apache Camel 是 一 个 非常 强大 的 基于 规则 的 路 由 和 媒介 引擎 ， 提 供 了 一 个 基于 简单 
的 Java 对 象 (Plain Ordinary Java Object，POJO) 的 企业 集成 模式 (Enterprise Integration 
Patterns) 的 实现 ， 可 以 采用 其 异常 强大 且 十 分 易 用 的 API [可 以 说 是 一 种 Java 的 领域 特 
定语 言 (Domain Specific Language)] 来 配置 其 路 由 或 者 中 介 的 规则 。 通 过 这 种 领域 特定 
语言 ， 可 以 在 IDE 中 用 简单 的 Java 代码 写 出 一 个 性 能 安全 并 具有 一 定 智 能 的 规则 描述 文 
件 。Apache Camel 使 用 URI 直接 与 任意 类 型 的 传输 或 消息 传递 模型 (如 HTTP、Ac- 
tiveMQ、JMS、JBI、SCA、MINA 或 CXF) 及 可 插入 的 组 件 和 数据 格式 选项 一 起 工作 。 
Apache Camel 是 一 个 小 型 库 ， 具 有 最 低 的 依赖 性 ， 可 以 轻松 嵌入 任意 Java 应 用 程序 中 。 
无 论 使 用 哪 种 传输 方式 ，Apache Camel 都 允许 用 户 使 用 相同 的 工作 ， 因 此 只 需 学 习 
一 次 API， 即 可 与 开 箱 即 用 的 所 有 组 件 进 行 交 互 ， AAA 
































2. Apache Kafka A 
Apache Kafka 是 一 个 开源 的 消息 系统 项 目 ， 语言 编写 ， 为 处 理 实时 数据 提供 
了 一 个 统一 、 高 通 量 和 低 延 时 的 平台 ， 具 有 


(1) 通 过 O(C1) 的 磁盘 数据 结构 保持 消 剧 的 
息 ， 也 能 够 保持 长 时 间 的 稳定 性 。 
上 


(2) 高 吞吐 量 ; Ce 件 ，Apache 洗 
消息 。 | 
(3) 支 持 通过 Apache Bi min 区 消息 。 


(4) 支 持 Hadoopy 并 和 加 载 。 NS 

3. Apatar 2 北 

Apatar A 语言 编写 的 ， 是 一 个 开源 的 ETL 项 目 。 其 模块 化 的 架构 提供 可 视 
化 的 Job 设计 器 与 映射 工具 ， 支 持 所 有 主流 数据 源 ， 提 供 灵活 的 基于 GUI、 服 务 器 和 概 
入 式 的 部 署 选项 。 它 具有 符合 Unicode 的 功能 ， 可 用 于 跨 团 队 集成 数据 、 填 充 数据 仓库 与 
数据 市 场 ， 在 少量 甚至 没有 代码 的 情况 下 进行 维护 工作 。 

4. Heka 


Mozilla 发 布 的 Heka 是 一 个 用 来 收集 和 整理 来 自 多 个 不 同 数据 源 的 数据 的 工具 ， 对 
数据 进行 收集 和 整理 后 ， 将 结果 报告 发 送 到 不 同 的 目标 进行 进一步 分 析 。Heka 是 一 个 高 
可 扩展 的 数据 收集 和 处 理工 具 ， 它 的 可 扩展 性 不 仅仅 体现 在 程序 本 身 可 以 进行 插件 开发 ， 
还 体现 在 可 以 方便 地 通过 添加 机 器 来 进行 水 平 扩展 。 

5. Logstash 

Logstash 是 一 个 传输 、 处 理 、 管 理 和 搜索 应 用 程序 日 志 的 工具 ， 可 以 用 来 收集 、 管 
理应 用 程序 日 志 ， 提供 Web 接口 以 查询 和 统计 。Logstash 支持 各 种 输入 ， 这 些 输入 同时 
从 多 个 公共 源 中 拉 取 事件 。 它 可 以 轻松 地 从 日 志 、 度 量 、Web 应 用 程序 、 数 据 存 储 和 各 
种 AWS 服务 中 获取 信息 。 







化 ， 即 使 用 这 种 结构 存储 TB 级 的 消 











6. Scriptella 


Scriptella 是 一 个 开源 的 ETL 和 脚本 执行 工具 ,采用 Java 语言 编写 。Scriptella 支持 
跨 数据 库 的 ETL 脚本 ,并 且 可 以 在 单个 ETL 文件 中 支持 来 自 多 个 数据 源 的 任务 并 行 。 
Scriptella 可 与 任何 与 JDBC/ODBC 兼容 的 驱动 程序 集成 ， 并 提供 与 非 JDBC 数据 源 和 脚 
本 语言 具有 互 操作 性 的 接口 ， 还 可 以 与 JavaEE、Spring、JMX、JNDI 和 JavaMail 集成 。 
7. Talend 


Talend 是 第 一 家 针对 数据 集成 工具 市 场 的 ETL 开源 软件 供应 商 ， 以 其 技术 和 商业 双 
重 模 式 为 ETL 服务 提供 了 一 个 全 新 的 愿景 ， 打 破 了 传统 的 独 有 封闭 服务 ， 提 供 了 一 个 针 
对 所 有 规模 公司 的 公开 的 、 创 新 的 、 强 大 的 、 灵 活 的 软件 解决 方案 。Talend 开发 的 同名 
工具 使 得 数据 整合 方案 不 再 被 大 公司 垄断 。 从 





8. Kettle NS 
Kettle 是 一 款 开源 的 ETL 工具 ,采用 Java 语言 » 绿色 、 无 须 安装 和 数据 抽 
取 高 效 稳定 的 特点 。 Kettle 有 两 种 脚本 文件 ， 即 q rmation 和 Job， 其 中 Transfor- 


mation 完成 针对 数据 的 基础 转换 ; Job 则 完 “ 作 流 的 控制 。Kettle 的 中 文 名 为 “水 
壶 ”， 开 发 Kettle 的 主 程序 员 希 望 把 各 种 个 


“ 壶 ”里 ， 然 后 将 其 以 一 种 指定 的 
格式 流出 。 Kettle 允许 用 户 管理 来 自 的 数据 ， 通 过 提供 一 个 图 形 化 的 用 户 环境 
来 描述 用 户 想 做 什么 。 E> 


We 





本 章 首先 从 采 采集 方法 和 采 NS 仙人 细 了 大 二 所 的 末 和 着 重 讲 
述 了 大 数据 的 5 让 然后 简要 介绍 了 大 数据 
的 预 处 理 技 滞 数 据 清洗 、 吉 据 集成 数据 变换 和 数据 归 约 等 ; 并 描述 了 数据 仓库 


的 概念 、 组 成 和 数据 模型 ， 数据 模型 分 为 概念 模型 、 逻 辑 模型 和 物理 模型 。 最 后 从 概念 
和 工具 两 个 层面 详细 介绍 了 ETL。 


~ 
篇 关键 术语 


(1) 数 据 清洗 (2) 数 据 集成 (3) 数 据 变换 (4) 数 据 归 约 
(5) 数 据 仓 库 (6)ETL (7) 网 络 爬 虫 

习 题 
1. 选择 题 


(1) 大 数据 的 采集 来 源 包括 ( )。 
A. 商业 数据 B. 互联 网 数据 





Gs xasse ,| 





C. 物 联网 数据 D. 以 上 都 是 
(2) 以 下 ( ) 不 属于 系统 日 志 采 集 系 统 。 
A. DPI B. Chukwa 
C. Flume D. Scribe 
(3) 以 下 ( ) 不 属于 大 数据 采集 平台 Apache Flume 的 特点 。 
A. 开源 B. 高 可 靠 性 
C. 高 扩展 性 D. 难 管理 
(4) 大 数据 预 处 理 的 第 一 道 工序 是 ( ) 。 
A. 数据 归 约 B. 数据 集成 
C. 数据 交换 D. es 
(5) 网 络 数据 采集 方法 中 的 Spider 是 指 ( 
A. 丹 蛛 B. a 论 
C. 三 脚 架 D. 十 字 轴 A 
(6) 以 下 ( ”) 不 是 大 数据 的 采集 平台 。 


A. Apache Flume ted 

C. JVM RN Forwarder 
2. 判断 题 RO 
(1) 大 数据 最 主要 的 采集 来 源 是 ( 
re 数据 的 采集 。 ~ ( 


(3) 传 统 的 数据 清洗 是 将 机 变量 ， 本 亲人 下 ( 
(4) 数 据 仓库 是 一 种 OL 据 库 ， i 2AP 数据 库 中 获取 数据 。 
Sree reas | ( 
es 行 抽 取 、 转换 和 隐 矢 的 ( 
和 Ar 二 

(1) 常 用 的 大 数据 采集 平台 有 哪 几 种 ? 

(2) 简 述 网 络 数据 采集 的 步骤 。 

(3) 简 述 四 种 大 数据 清洗 方法 的 优点 和 缺点 。 

(4) 简 述 数据 归 约 的 三 种 方法 。 

(5) 数 据 仓库 由 哪 几 部 分 组 成 ? 

(6) 简 述 数据 仓库 逻辑 模型 的 三 种 类 型 及 其 特点 。 


回 中 向 国 
回转 
【第 2 章 习题 答案] 





大 数据 存储 
全 ms SS 
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分 布 式 存储 的 存储 结构 























分 布 式 存储 的 典型 系统 age Tank、GFS 和 Hadoop 
云 存 储 的 结构 模型 层 、 应 用 接口 层 和 访问 层 
云 存储 的 分 类 掌握 多 丢 、 何 有 云 和 混合 云 

在 全 的 优势 和 庆 维 一 掌握 i 

云 存 储 的 引起 了 解 来 的 混合 云 战略 








Web 技术 和 移动 设备 的 出 现 使 得 数据 性 质 发 生根 本 性 变化 。 大 数据 具有 重要 而 独特 的 
性 质 ， 这 种 特性 使 其 与 传统 的 企业 数据 区 分 开 ， 不 再 集中 化 、 高 度 结构 化 和 易于 管理 ， 数 据 
结构 松散 且 量 级 越 来 越 大 。 传 统 数据 与 大 数据 的 特性 对 比 见 表 3. 1。 


表 3.1 传统 数据 与 大 数据 的 特性 对 比 























传统 数据 大 数 据 
吉 字 节 (GB) 至 太 字 节 (TB) 拍 字 节 (PB) 至 艾 字 节 (EB) 
集中 式 分 布 式 
结构 化 半 结 构 化 和 非 结 构 化 
稳定 的 数据 模型 平面 模型 
复杂 的 内 部 关系 简单 的 内 部 关系 


从 时 间 和 成 本 效益 上 看 ， 传 统 的 数据 仓库 等 数据 管理 工具 无 法 实现 大 数据 的 处 理 和 分 析 
工作 ， 必 须 将 数据 组 织 成 关系 表 ， 传 统 的 企业 级 数据 仓库 才能 处 理 。 由 于 需要 投入 较 多 的 时 
间 和 人 力 成 本 ， 对 海量 的 非 结 构 化 数据 来 说 ， 传 统 方式 不 可 行 。 此 外 ， 要 扩展 传统 的 企业 级 


+ 


数据 仓库 ,使 其 适应 潜在 的 PB 级 数据 ,需要 在 新 的 专用 硬件 上 投入 巨额 资金 ， 而 由 于 数据 
加 载 量 有 限 ， 传统 数据 仓库 的 性 能 也 会 受到 影响 ,因此 需要 新 的 大 数据 存储 方法 。 











3.1 传统 存储 


数据 存储 问题 非常 重要 ， 然 而 在 实际 应 用 中 却 经 常 出 错 。 掉 盘 和 卷 锁 死 等 问题 严重 
回回 影响 整个 系统 的 正常 使 用 ， 所 以 数据 专用 存储 介质 和 方式 已 经 成 为 市 场 关注 
ea 号 的 焦点 。 在 目前 的 数字 领域 中 ， 常 用 的 传统 存储 方式 有 四 种 : 硬盘 、 直 连 式 
画 证 





存储 (Direct Attached Storage，DAS)、 网 络 附 加 存储 (Network Attached 
Storage，NAS) 和 存储 区 域 网 络 (Storage Area Network，SAN)。 其 中 NAS 


【固态 硬盘 】 和 SAN 统称 为 网 络 存储 。 
人 


3.1.1 硬盘 

硬盘 是 一 种 采用 磁 介 质 的 数据 存储 设备 ， 数 据 
容量 、 体 积 还 是 生产 工艺 都 较 
nts 系列 2.5 英寸 USB 3.0 移 


的 若干 个 磁盘 片上 。 从 硬盘 问世 至 今 已 经 60 多 年 










eme: 





之 前 有 了 重大 革新 和 改进 。 图 3. 1 为 西部 数 
动 硬盘 的 外 观 。 > 


NX 
3.1 西部 数据 (WD)Elements 系列 2. 5 英寸 USB 3.0 移动 硬盘 的 外 观 


无 论 是 硬盘 录像 机 (Digital Video Recorder，DVR)、 网 络 视频 服务 器 (Digital Video Server， 
DVS) 后 挂 硬盘 还 是 服务 器 后 面 直接 连接 扩展 柜 ， 都 采用 硬盘 存储 数据 。 然 而 采用 硬盘 方式 
的 存储 系统 ， 并 不 能 算 作 严 格 意义 上 的 存储 系统 ， 其 原因 有 以 下 几 点 。 

二 (1) 一 般 不 具备 独立 磁盘 宛 余 阵列 (Redundant Arrays of Independent 

Disks，RAID) 系 统 ， 对 硬盘 上 的 数据 没有 进行 元 余 保 护 ， 即 使 有 也 是 通过 
: 主机 端的 RAID 卡 或 者 软 RAID 实现 的 ,严重 影响 整体 性 能 。 
(2) 扩 展 能 力 有 限 ， 当 录像 时 间 超 过 60 天 时 , 不 能 满足 录像 时 间 的 相 
【小 立 磺 瘟 应 存储 需求 。 
eR (3) 无 法 实现 数据 集中 存储 ， 后 期 维护 成 本 较 高 ， 特 别 是 DVS 后 挂 硬 
盘 方式 ， 维 护 成 本 会 在 一 年 之 内 超过 购置 成 本 。 

硬盘 存储 方式 不 适用 于 大 型 数字 视频 监控 系统 ， 特 别 是 需要 长 时 间 录 像 的 数字 视频 
监控 系统 。 一 般 这 种 方式 与 其 他 存储 方式 并 存 于 同一 个 系统 中 ， 作 为 其 他 存储 方式 的 组 
冲 或 应 急 替 代 。 











rs 








3.1.2 直 连 式 存储 


直 连 式 存储 (DAS) 的 全 称 为 直接 连接 附加 存储 ， 指 磁盘 驱动 器 和 服务 器 直接 连接 ， 
存储 作为 外 围 设 备 。 在 这 种 存储 结构 中 ， 数 据 管理 以 服务 器 为 中 心 ， 所 有 的 应 用 软件 与 
存储 子 系统 配套 。DAS 适用 于 一 个 或 有 限 的 几 个 服务 器 环境 ， 当 存储 容量 增加 时 ， 存 储 
供应 的 效率 会 随 之 降低 ， 而 且 可 升级 和 扩展 性 受到 限制 ; 当 服 务 器 出 现 异 常 时 ， 数 据 不 
可 获取 ， 存 储 资源 和 数据 无 法 共享 。 
采用 DAS 方式 可 以 简单 实现 平台 扩容 ， 同 时 为 数据 提供 多 种 RAID 级 别 的 保护 。 常 
用 RAID 级 别 特性 的 比较 见 表 3. 2。 

表 3.2 常用 RAID 级 别 特性 的 比较 








RAID 级 别 名 速 度 店庆 
RAID0 无 容错 条 带 | ”磁盘 并 行 输 视频 、 图 像 编辑 及 
磁盘 阵列 人 /输出 需要 高 带宽 的 应 用 








读 取 速度 是 间 
磁盘 镜像 | 个 栈 盘 的 两 信 ， Xr 会 计 、 爹 融 等 需要 
RAID 1 v 少 两 
方式 写 人 速度 与 单 企 [SS 至少 本 失 。 | 高 可 靠 性 的 应 用 


磁盘 相同 
xi 文件 、 数据库 、 
交叉 存 取 加 Wi # 
RAID5 六 和 二 册 术 攻 EN 的 | 有 六 Web、E-mail 等 应 用 





服务 器 





数据 库 服务 器 和 需 
RAID 1+0 多 你 同 RAID0 NN 至 少 四 块 。 | 要 高 可 靠 性 、 高 性 能 
A- 将 的 服务 器 


RAID 0+1 NT 同 RAID1 I 有 至 少 四 块 i 人 


RAID 1 十 0 和 RAID 0 十 1 是 两 种 逻辑 方式 不 同 的 组 合 。 前 者 是 先 镜像 后 条 带 ， 即 先 
将 硬盘 纵向 做 镜像 ， 然 后 横向 做 条 带 。 在 这 种 情况 下 ， 只 要 不 是 同一 个 镜像 组 中 几 块 硬 
盘 同时 坏 掉 ， 则 整个 RAID 组 都 不 会 崩溃 ， 即 同一 个 镜像 组 的 硬盘 不 能 同时 坏 掉 。 后 者 
是 先 条 带 后 镜像 ， 即 先 将 硬盘 横向 做 条 带 ， 然 后 纵向 做 镜像 。 在 这 种 情况 下 ， 只 要 不 是 
两 个 条 带 上 有 硬盘 同时 坏 掉 ， 则 整个 RAID 组 都 不 会 崩溃 。 两 者 的 性 能 基本 相同 ， 但 后 
者 发 生 故 障 的 概率 大 于 前 者 ， 所 以 一 般 情况 下 都 选择 RAID 1 十 0。 


3.1.3 网络 存储 
































网 络 存储 分 为 网 络 附加 存储 (NAS) 和 存储 区 域 网 络 (SAN)。 
1. NAS 
NAS 是 连接 在 网 络 上 具备 资料 存储 功能 的 装置 因此 也 称 为 网 络 【NAS 设 备 分 类 】 











存储 器 。 它 是 一 种 专用 数据 存储 服务 器 ， 以 数据 为 中 心 ， 将 存储 设备 与 服务 器 彻底 分 离 ， 
集中 管理 数据 ， 从 而 释放 带宽 、 提 高 性 能 、 降 低 总 成 本 。 该 成 本 低 于 使 用 服务 器 存储 的 
成 本 ， 而 效率 远 高 于 后 者 。 目 前 国际 著名 的 NAS 企业 有 NetApp、EMC 和 OUO 等 。 
NAS 具有 存储 资料 和 跨 平台 共享 文件 的 功能 ， 通 过 将 数据 作为 运行 中 心 ， 实 现 服务 
器 与 数据 存储 设备 的 分 析 ， 属 于 专门 的 数据 存储 服务 器 。NAS 系统 通过 IP 网 络 中 的 节点 
提供 专门 的 文件 访问 服务 ,不 受 服务 器 干扰 ; 还 降低 了 企业 服务 器 的 负载 ， 进 而 降低 了 
总 成 本 。 此 外 ，NAS 支持 多 种 开放 标准 的 协议 ， 且 具有 实时 的 操作 系统 ， 适 用 人 性 高 。 
NAS 系统 的 组 件 如 图 3. 2 所 示 ， 主 要 包括 网 络 、 存 储 和 控制 器 三 部 分 内 容 。 其 中 网 络 部 
分 是 指 NAS 系统 可 以 向 客户 提供 一 个 或 多 个 网 络 端口 用 于 访问 存储 的 数据 ，NAS 系统 支 
持 多 种 类 型 的 协议 和 网 络 技术 ; 存储 部 分 是 指 NAS 系统 中 的 磁带 或 磁盘 ; 控制 器 部 分 包 
括 内 存 和 CPU， 是 系统 的 核心 部 分 。 
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图 3.2 '% 

ad 一 台 普 通 的 主机 就 可 以 成 为 NAS， 只 要 它 有 磁盘 、 文 件 系 
统 和 对 外 提供 访问 其 文件 系统 的 接口 ， 如 公共 互联 网 文件 系统 (Common Internet File 
System，CIFS) 和 网 络 文件 系统 (Network File System，NFS) 等 。 常 用 的 Windows 文件 
共享 服务 器 就 是 将 CIFS 作为 调用 接口 协议 的 NAS 设备 。 

CIFS 是 当前 主流 异 构 平台 共享 文件 系统 之 一 ， 主 要 应 用 于 Windows NT 环境 ， 由 微 
软 开发 。 其 工作 原理 是 让 CIFS 协议 运行 于 TCP/IP 通信 协议 之 上 ， 让 使 用 UNIX 系统 的 
计算 机 可 以 在 网 络 邻 居 上 被 使 用 Windows 系统 的 计算 机 看 到 。 微 软 推 出 服务 器 消息 块 
(Server Message Block，SMB) 后 实现 CIFS 协议 。 

NFS 也 是 当前 主流 异 构 平 台 共 享 文件 系统 之 一 ， 主 要 应 用 于 UNIX 环境 ， 最 早 由 太 
阳 微 系统 开发 ， 现在 能 够 支持 在 不 同类 型 的 系统 之 间 通 过 网 络 共享 文件 ,广泛 应 用 在 
FreeBSD、SCO 和 Solaris 等 异 构 操 作 系统 平台 中 ， 人 允许 一 个 系统 在 网 络 上 与 他 人 共享 目 
录 和 文件 。 通 过 使 用 NFS， 用 户 和 程序 可 以 像 访问 本 地 文件 一 样 访问 远 端 系统 中 的 文件 ， 
使 得 每 个 计算 机 的 节点 能 够 像 使 用 本 地 资源 一 样 方便 地 使 用 网 上 资源 。 

存储 区 域 网 络 采 用 网 状 通道 (Fibre Channel，FC) 技 术 , 通过 FC 交换 机 连接 存储 阵 
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列 和 服务 器 主机 ， 建 立 专用 于 数据 存储 的 区 域 网 络 。 
2. SAN 


SAN 经 过 多 年 的 发 展 ， 已 经 相当 成 熟 ， 成 为 业界 的 事实 标准 ， 但 各 个 厂商 的 光纤 交 
技术 不 完全 相同 ， 其 服务 器 和 SAN 存储 有 兼容 性 的 要 求 。SAN 专注 于 解决 企业 级 存储 
桂 有 问题 。 当 前 企业 存储 方案 遇 到 问题 的 两 个 根源 是 数据 与 应 用 系统 紧密 结合 所 产生 
结构 性 限制 及 小 型 计算 机 系统 接口 (Small Computer System Interface，SCSI) 标 准 的 限 
。 大 多 数 分 析 认 为 SAN 是 未 来 企业 级 的 存储 方案 ,因为 SAN 便于 集成 ， 能 改善 数据 
用 性 及 网 络 性 能 ， 而 且 可 以 减少 管理 作业 。 

SAN 克服 了 NAS 中 存储 吞吐 量 受 底层 网 络 介质 限制 的 缺点 ， 且 综合 了 串 行 IO 总 线 和 
交换 网 络 的 优点 ， 能 够 实现 存储 系统 高 速 互 连 ， 因 而 在 大 数据 中 得 到 了 广泛 应 用 。 但 在 具体 
实施 中 ,需要 采购 专门 硬件 ， 还 要 为 存储 部 署 和 管理 单独 定制 网 - 且 对 操作 人 员 的 素质 
要 求 较 高 。 可 以 这 样 比喻 SAN 是 一 个 网 络 上 的 磁盘 ; J 络 上 的 文件 系统 。 根 











到 媳 骂 避 常 








据 SAN 的 定义 可 知 ，SAN 其 实 是 指 一 个 网 络 , 但 是 这 个 网 2 着 各 种 各 样 的 元 素 ， 如 主 
机 、 适 配器 、 网 络 交换 机 、 磁 盘 阵 列 前 端 、 磁 盘 阵 有 盘 等 。 长 期 以 来 ， 人 们 习惯 性 
地 用 SAN 来 特 指 FC， 特 指 远 端的 磁盘 。 普 通 台 义 充当 NAS。NAS 必须 具备 两 个 
物理 条 件 ; 第 一 ,不 管用 什么 方式 ，NAS 必须 可 内 访 问卷 或 者 物理 磁盘 ; 第 二 ，NAS 必须 
具有 接 入 以 太 网 的 能 力 ， 也 就 是 必须 具有 aa 
图 3. 3 和 图 3. 4 分 别 是 SAN 方 . 茎 图 和 NAS 方式 的 路 径 图 ， 显 然 ，NAS 架构 

























的 路 径 ， 在 虚拟 目录 层 和 文件 系 


多 六 时 ， 用 以 太 网 入 PP/IP 协议 代替 了 内 存 ， 这 样 
做 不 但 增加 了 CPU [Ad 用 了 低速 传输 j SAN 方式 的 路 径 比 NAS 方 
式 多 了 一 次 FC 访问 过 稳 ,但 臣 FC 的 大 部 分 逻辑 卡 上 的 硬件 完成 ，CPU 的 开销 增 


加 不 多 , 而 且 FCi 9 比 以 太 网 快 ， 后 端 磁盘 没有 瓶颈 ， 那 么 除非 NAS 
使 用 快 于 内 存 的 网 与 主机 通信 ， 
端 磁 盘 有 瓶 可 以 忽略 通过 NAS 


永远 无 法 超越 SAN 方式 。 但 是 如 果 后 

络 代替 内 存 的 方法 导致 的 性 能 降低 。 例 如 ， 
在 大 量 随机 小 块 T/O 和 缓存 命中 率 极 低 的 环境 下 ， 后 端 磁盘 系统 寻 道 瓶颈 达到 最 大 ， 前 
端的 1/O 指令 都 处 于 等 待 状态 ， 因 此 路 径 首 段 速度 再 快 也 无 济 于 事 。 此 时 ，NAS 不 仅 比 
SAN 慢 ， 而 且 其 优化 的 并 发 /O 设计 和 基于 文件 访问 而 不 是 簇 块 访问 的 特性 ,使 得 NAS 
比 SAN 性 能 高 。 



















服务 器 机 箱 
图 3.3 SAN 方式 的 路 径 图 























图 3.4 NAS 方式 的 路 径 图 


3.2 分 布 式 存储 





人 人 和 人 具体 
【BigTable 的 来 说 ， 就 是 在 众多 的 服务 器 上 搭建 BS 件 系统 ， 然 后 在 分 布 式 文 
区 中 和 Wi 现 二 级 存储 业务 ， 如 BigTable。 
3.2.1 存储 结构 洲 
随 着 全 球 非 结构 化 数据 快速 增长 伦 数 据 设计 等 的 传统 存储 结构 在 性 能 和 可 扩 


集群 存储 、 > P2P 存储 和 面向 对 


1. 集群 存储 
和 普通 性 能 的 存储 系统 联合 sy, “存储 的 集群 ”"。 集 群 存储 采用 开放 
式 架构 ， Sa 一 节点 、 前 端 网 络 和 后 端 网 络 三 个 构成 元 素 ， 
ne 扩展 和 升级 ， 而 不 用 重光 集群 存储 的 架构 ， 通过 分 布 式 操作 系统 的 
作用 ， 在 前 端 和 后 端 实现 负载 均衡 。 集 群 存储 多 应 用 于 大 型 数据 中 心 和 高 性 能 计算 中 心 。 

2. 集群 并 行 存储 

集群 并 行 存 储 采 用 了 分 布 式 混合 并 行文 件 系 统 。 并 行 存储 允许 客户 端 和 存储 直接 打 
交道 ， 极 大 地 提高 了 人 性能。 集群 并 行 存储 提高 了 并 行 或 分 区 1/O 的 整体 性 能 ， 特 别 是 对 
操作 密集 型 及 大 型 文件 的 访问 。 在 相互 独立 的 存储 设备 上 复制 数据 ， 可 提高 可 用 性 ; 使 
用 廉价 的 集群 存储 系统 ， 可 大 幅 降低 成 本 ,并 解决 可 扩展 性 方面 的 难题 。 

3. P2P 存储 


P2P 存储 即 用 P2P 的 方式 在 广域网 中 构建 大 规模 存储 系统 。P2P 存储 的 总 体 思想 是 
让 用 户 也 成 为 服务 器 ， 在 存储 数据 的 同时 ， 提 供 空间 让 用 户 来 存储 ， 从 而 有 效 解决 由 服 
务 器 数量 限制 产生 的 瓶颈 ， 也 能 在 速度 上 加 以 改进 。 但 是 它 在 数据 的 稳定 性 、 一 致 性 、 
安全 性 、 隐 私 性 及 防 攻 击 性 等 方面 出 现 了 问题 。 此 外 还 有 技术 难题 ， 如 覆盖 网 络 和 节点 
信息 收集 算法 、 数 据 的 放置 与 组 织 、 复 制 管理 、 负 载 平 衡 、 数 据 迁 移 、 数 据 索 引 和 公平 
性 维护 。 从 体系 结构 来 看 ， 系 统 采用 无 中 心 结构 ， 节点 之 间 对 等 ， 通 过 相互 合作 完成 用 









象 存储 等 多 种 存储 结构 谈 
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户 任务 。 用 户 通 过 该 平台 自主 寻找 其 他 节点 进行 数据 备份 和 存储 空间 交换 ， 为 用 户 构建 
了 大 规模 存储 交换 的 系统 平台 。P2P 存储 用 于 构建 更 大 规模 的 分 布 式 存储 系统 ， 可 以 跨 
多 个 大 型 数据 中 心 或 高 性 能 计算 中 心 使 用 。 

4. 面向 对 象 存储 


面向 对 象 存储 是 SAN 和 NAS 的 有 机 结合 ， 是 存储 系统 的 一 种 发 展 趋势 。 在 面向 对 
象 存储 中 ,文件 系统 中 的 用 户 组 件 部 分 基本 与 传统 文件 系统 相同 ， 将 其 下 移 到 智能 存储 
设备 上 ， 用 户 对 存储 设备 的 访问 接口 便 由 传统 的 块 接口 变 为 对 象 接口 。 


3.2.2 系统 架构 


分 布 式 存储 系统 用 于 解决 单机 存储 中 的 容量 和 性 能 等 瓶颈 ， 以 及 可 用 性 和 可 扩展 性 
en 雹 人 ， RETRE 
展 性 好 的 存储 服务 。 

分 布 式 存储 系统 的 架构 如 图 3. 5 所 示 ， 其 中 逻辑 层 
部 分 组 成 :一 是 数据 仓库 包含 的 模块 ， 是 直接 提供 
数据 层 和 配置 运行 和 维护 中 心 组 成 ;二 是 辅助 
TR 








务 的 使 用 方 。 系 统 由 两 大 
妥 务 的 核心 部 分 ， 由 接 入 层 、 
:负责 系统 的 监控 、 运 行 和 维护 ， 
运营 系统 组 成 。 









图 3.5 分 布 式 存储 系统 的 架构 


一 个 数据 仓库 是 一 个 存储 集群 ， 多 个 业务 可 以 共享 一 个 数据 仓库 的 资源 ， 根 据 需 求 
可 以 部 署 多 个 数据 仓库 。 辅 助 系统 由 所 有 数据 仓库 共用 。 

分 布 式 存储 系统 各 个 模块 的 主要 功能 如 下 。 

(1) 接 入 层 主 要 提供 两 个 功能 : 一 是 对 人 逻辑 层 访问 接 入 层 进行 负载 均衡 ,二 是 实现 数 
据 分 片 ， 即 把 访问 数据 的 请 求 转发 给 数据 所 在 的 数据 层 设备 。 

(2) 数 据 层 用 于 存储 数据 ,存储 介 质 可 以 支持 内 存 或 固态 硬盘 (Solid State Drive， 
SSD) 。 读 写 服务 用 于 处 理 用户 的 读 写 请 求 ， 同 步 模块 实现 多 份 数据 副本 之 间 的 主 备 同 步 ， 
运 地 和 维护 工具 用 于 执行 主 备 切换 、 死 机 恢复 和 扩容 等 运 维 操作 。 




















53) 配置 运行 和 维护 中 心 由 三 部 分 组 成 : 配置 中 心 负责 整个 仓库 的 配置 维护 和 下 发 ; 
配额 中 心 负责 各 个 业务 级 别 的 容量 、 流 量 和 CPU 等 资源 的 配额 管理 ; 运行 和 维护 中 心 用 
于 自动 或 手动 下 发 运 维 命 令 。 

(4) 备 份 系统 负责 整个 系统 所 有 业务 的 数据 备份 、 回 档 和 恢复 。 流 水 中 心 会 记录 所 有 
写 操作 的 流水 ;任务 中 心 管理 和 调度 所 有 数据 备份 、 回 档 和 恢复 任务 的 执行 。 

(5) 监 控 系 统 对 系统 的 关键 信息 和 运行 状况 进行 上 报 和 分 析 ， 对 异常 情况 进行 监控 和 
告警 。 打 点 上 报 是 对 系统 的 关键 路 径 和 异常 点 等 进行 计数 或 状态 上 报 ; 多 维 上 报 是 对 打 
点 上 报 的 补充 ， 上 报 更 多 维度 的 信息 。 

56) 运行 和 维护 管理 系统 的 使 用 者 是 系统 运行 维护 人 员 ， 可 以 方便 地 进行 业务 管理 和 
运行 和 维护 操作 ， 如 进行 配置 管理 、 故 障 管理 和 业务 扩容 等 常用 操作 ， 还 可 以 查看 系统 











运行 状况 和 业务 运营 数据 。 

(7) 用 户 运营 系统 的 使 用 者 是 使 用 存储 服务 的 用 户 ， 他 们 i 统 可 以 掌握 所 接 入 
业务 的 运营 数据 ， 并 进行 用 户 级 的 业务 管理 和 运行 维护 费 、 扩 容 、 数 据 清空 、 
数据 备份 和 数据 恢复 等 。 A- 

3.2.3 典型 系统 只 


对 体系 结构 的 认识 不 断 深 入 ， 分 布 式 文 
和 可 用 性 等 方面 经 历 了 很 大 的 变化 。 下 


基于 多 种 分 布 式 文件 系统 的 研究 成 果 > 
件 系统 在 体系 结构 、 系 统 规模 、 性 能 
We 

1. NFS ~ 


NFS 是 FreeBSD( 3 x ee 文件 系统 ， 人 允许 网 络 中 的 计算 






机 之 间 通过 TCP/ 资源 。 在 NFS 的 版 用 市， 本 地 NFS 的 客户 端 应 用 可 以 透 
po 问 本 地 文件 一 样 。1985 年 出 现 的 NFS 
pa 被 移植 到 了 几乎 价 有 主流 的 操作 系统 中 ， 成 为 分 布 式 文件 系 
统 事 实 上 的 标准 。NFS 利用 UNIX 系统 中 的 虚拟 文件 系统 (Virtual File System，VFS) 机 
制 ， 通 过 规范 的 文件 访问 协议 和 远程 过 程 调用 客户 机 对 文件 系统 的 请 求 ， 关 转发 到 服 
务 器 端 进行 处 理 ; 服务 器 端 在 VFS 机 制 之 上 ， 通 过 本 地 文件 系统 完成 文件 的 处 理 ， 实 
现 了 全 局 的 分 布 式 文件 系统 。 太 阳 微 系统 公开 了 NFS 的 实施 规范 。 互 联网 工程 任务 组 
(Internet Engineering Task Force，IETF) 将 其 列 为 征求 意见 稿 ， 这 在 很 大 程度 上 促使 
NFS 的 很 多 设计 实现 方法 成 为 标准 ， 也 促进 了 NFS 的 流行 。 
2 GPES 


GPFS(General Parallel File System， 通用 并 行文 件 系 统 ) 是 IBM 公司 的 第 一 个 共享 
文件 系统 ， 起 源 于 IBM SP 系统 上 使 用 的 虚拟 共享 磁盘 技术 。GPFS 是 目前 应 用 范围 较 广 
的 系统 ,在 系统 设计 中 采用 了 多 项 当时 较 先进 的 技术 。GPFS 的 磁盘 数据 结构 可 以 支持 大 
容量 的 文件 系统 和 大 文件 ， 通 过 采用 分 片 存储 、 较 大 的 文件 系统 块 和 数据 预 读 等 方法 获 
得 较 高 的 数据 吞吐 率 ; 采用 扩展 哈 希 (Extensible Hashing) 技 术 来 支持 含有 大 量 文 件 和 子 
目录 的 大 目录 ， 提 高 文件 的 查找 和 检索 效率 。 

GPFS 采用 不 同 粒度 的 分 布 式 锁 ， 解 决 系统 中 并 发 访问 和 数据 同步 的 问题 。 字 节 范 围 


明 地 读 写 位 于 远 
































的 锁 用 于 同步 用 户 数据 ， 动 态 选择 元 数据 节点 (Meta Node) 进 行 元 数据 的 集中 管理 ;， 具有 
集中 式 线索 的 分 布 式 锁 管 理 整个 系统 中 的 空间 分 配 等 。GPFS 采用 日 志 技 术 对 系统 进行 在 
线 灾 难 恢复 。 每 个 节点 都 有 各 自 独 立 的 日 志 ， 且 单个 节点 失效 时 ， 系 统 中 的 其 他 节点 可 
以 代替 失效 节点 检查 文件 系统 日 志 ， 进 行 元 数据 恢复 操作 。 

GPFS 还 有 效 地 克服 了 系统 中 任意 单个 节点 的 失效 、 网 络 通信 故障 和 磁盘 失效 等 异常 
事件 。 此 外 ，GPFS 支持 在 线 动态 增 减 存储 设备 ， 然 后 在 线 重新 平衡 系统 中 的 数据 。 这 些 
特性 在 需要 连续 作业 的 高 端 应 用 中 尤为 重要 。 

3. Storage Tank 


IBM 公司 在 GPFS 的 基础 上 开发 出 Storage Tank 及 基于 Storage Tank 的 TotalStorage 
SAN File System， 又 将 分 布 式 文件 系统 的 设计 理念 和 系统 架构 向 前 推进 了 一 步 。 它 们 除 
了 具有 一 般 分 布 式 文件 系统 的 特性 之 外 ， 还 采用 SAN 作为 整个 系统 的 数据 存储 和 传 
输 路 径 。 它 们 采用 带 外 数据 (Out-of-Band，OOB) 结 构 ， 在 高 速 上 传输 文件 系统 元 
数据 ， 由 专门 的 元 数据 服务 器 来 处 理 和 存储 。 文 件 系统 gc 文件 数据 的 分 离 管理 和 
存储 ， t 高 系统 的 性 能 ， 有 效 降低 系 



























统 的 成 本 。 
Storage Tank 采用 积极 的 缓存 策略 ， 尽 
开 的 文件 被 关闭 ,也 可 以 在 下 次 使 用 时 


端 缓存 文件 元 数据 和 数据 ， 即 使 打 
缓存 的 文件 信息 ， 整 个 文件 系统 由 管理 
员 按照 目录 结构 划分 成 多 个 文件 集 件 集 都 是 一 个 相对 独立 的 整体 ， 可 以 进行 独 
立 的 元 数据 处 理 和 文件 系统 备份 等 XGTR 间 的 文件 集 可 以 娩 厂 到 不 同 的 元 数据 服务 器 处 理 ， 
形成 元 数据 孤 务 和 机群， 提交 条 扩展 性 和 可 朋 名 R" 

torage SAN File 中 ， 块 虚拟 层 对 整个 SAN 的 存 


在 Total SAN File Sygtei 
hi 人 覆 宗 间 。 这 样 的 分 层 结构 有 利于 简化 
文件 系统 的 设计 rr 









竺 各 物 环 境 的 分 布 式 文件 系统 ， 其 客户 端 支 
oo 据 位 置 选择 方法 ， 能 有 效 地 利用 系统 的 次 
源 ， 提 高 性 能 ,降低 成 本 


4. GFS 

GFS(Google File System， 谷 歌 文 件 系统 ) 集 群 由 一 个 Master 节点 和 大 量 的 Chunk- 
Server 节点 构成 ， 供 客户 访问 。GFS 把 文件 分 成 64MB 的 块 ， 减 小 了 元 数据 的 大 小 ， 使 
Master 节点 能 够 方便 地 将 元 数据 放置 在 内 存 中 以 提高 访问 效率 。 数 据 块 分 布 在 集群 的 机 
器 上 ,使 用 Linux 文件 系统 存储 ， 同 时 每 个 文件 块 至 少 有 三 份 以 上 的 完 余 。 考 虑 到 文件 
很 少 被 删 减 或 者 覆盖 ,文件 操作 以 添加 为 主 ， 充 分 考虑 了 硬盘 线性 吞吐 量 大 和 随机 读 取 
慢 的 特点 。 

中 心 是 一 个 Master 节点 ， 根 据 文件 索引 找寻 文件 块 。 系 统 保证 每 个 Master 节点 都 有 
相应 的 复制 品 ， 以 便于 在 其 出 现 问题 时 进行 切换 。 在 Chunk 层 ，GFS 将 节点 失效 视 为 常 
态 ， 能 够 迅速 处 理 Chunk 节点 失效 的 问题 。 对 于 稍 旧 的 文件 ， 可 以 通过 压缩 来 节省 硬盘 
空间 ， 且 压缩 率 惊 人 ， 有 时 可 以 接近 90%。 为 了 保证 高 速 并 行 处 理 大 规模 数据 ， 引 入 了 
MapReduce 编程 模型 ，MapReduce 将 很 多 烦琐 的 细节 隐藏 起 来 ， 极 大 地 简化 了 程序 员 的 
开发 工作 。 























5. Hadoop 


Yahoo 推出 了 基于 MapReduce 的 开源 版 本 Hadoop， 目 前 Hadoop 在 业界 已 经 被 大 规 
模 使 用 。Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System，HDFS) 具 有 高 容错 
性 ， 并 且 部 署 在 低廉 的 硬件 上 时 实现 了 异 构 软 硬件 平台 间 的 可 移植 性 。 为 了 尽量 减 小 全 
局 的 带宽 消耗 读 延 迟 ，HDFS 尝试 返回 给 读 操作 一 个 离 它 最 近 的 副本 。 假 如 在 读 节点 的 
同一 个 机 架 上 就 有 这 个 副本 ， 则 直接 读 取 该 副本 ， 如 果 HDFS 集群 跨越 多 个 数据 中 心 ， 
那么 本 地 数据 中 心 的 副本 优先 于 远程 的 副本 。 硬 件 故障 是 常态 ， 而 不 是 异常 ， 自 动 维护 
数据 的 多 份 复制 ， 并 且 在 任务 失败 后 能 自动 重新 部 署 计 算 任务 ， 实 现 了 故障 的 检测 和 自 
动 快速 恢复 。HDFS 放宽 了 可 移植 操作 系统 接口 (Portable Operating System Interface of 
UNIX，POSIX) 的 要 求 ， 从 而 可 以 以 流 的 形式 访问 文件 系统 中 的 数据 ， 实 现 了 以 流 的 形 
式 访 问 写 入 的 大 型 文件 的 目的 ， 重 点 是 数据 吞吐 量 ， 而 不 是 数 的 反应 时 间 。 

HDFS 提供 了 接口 ， 使 程序 移动 到 离 数据 存储 更 近 的 人 徐 了 网 络 拥堵 ， 增 大 
了 系统 整体 春 吐 量 。HDFS 的 命名 空间 是 由 名 字 节 点 来 存储 癌 。 名 字 节 点 使 用 EditLog 事 
务 日 志 来 持久 记录 每 个 文件 系统 元 数据 的 改变 ， 在 本 地 文件 系统 中 的 一 个 文 
件 中 。 整个 文件 系统 命名 空间 (包括 文件 块 的 映 件 系 统 的 配置 ) 都 存储 于 FsImage 
文件 中 ，FsImage TE 。FsImage 和 EditLog 是 HDFS 的 核 


心 数据 结构 。 NS 
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云 存储 是 在 云 计算 C&Rioud Computing) 概 念 上 a 是 一 种 
a 是 沸 通过 集群 应 用 或 分 布 式 文件 系统 等 ， 将 网 络 中 不 




















同类 型 的 存储 应 用 软件 集合 起 - 作 ， 共 同 对 外 提供 数据 存储 和 业务 访问 


功能 的 系统 .入 1 


3.3.1 云 存 储 的 结构 模型 

面 对 大 数据 的 海量 异 构 数据 ， 传 统 存储 技术 面临 建设 成 本 高 、 运 维 复杂 和 可 扩展 性 
有 限 等 问题 ， 于 是 成 本 低廉 、 提 供 高 可 扩展 性 的 云 存储 技术 日 益 得 到 关注 。 

云 存 储 是 一 个 由 网 络 设备 、 存 储 设备 、 服 务 器 、 应 用 软件 、 公 用 访问 接口 、 接 入 网 
和 客户 端 程序 等 组 成 的 复杂 系统 。 云 存储 以 存储 设备 为 核心 ,通过 应 用 软件 来 对 外 提供 
数据 存储 和 业务 访问 服务 。 云 存储 的 架构 如 图 3.6 所 示 。 

1. 存储 层 

存储 设备 数量 庞大 且 分 布 在 不 同 地 域 ， 彼此 通过 广域网 、 互 联网 或 光纤 通道 网 络 连 
接 在 一 起 。 存 储 设 备 之 上 是 一 个 统一 存储 设备 管理 系统 ， 实现 存储 设备 的 逻辑 虚拟 化 管 
理 、 多 链 路 宛 余 管理 ， 以 及 硬件 设备 的 状态 监控 和 故障 维护 。 

2. 基础 管理 层 

基础 管理 层 通 过 集群 系统 、 分 布 式 文件 系统 和 网 格 计算 等 实现 云 存 储 设备 之 间 





访问 层 





网 络 接 入 、 用 户 认证 、 权 限 管理 公用 Api 
度 有 失明 时 接口 、 应 用 软件 、Web Service 等 
基础 管理 层 
存储 层 





图 3.6 云 存储 的 架构 多 
的 协同 工作 ， thir 供 “ 更 大 、 更 强 、 更 好 ” 


授权 的 用 户 访问 ; 数据 备 
失 ， 保 证 云 存 储 自身 的 安全 和 









的 数据 访问 性 能 。 数 据 加 密 技 术 保证 云 存 储 中 的 
份 技术 和 数据 容 灾 技术 可 以 保证 云 存储 中 的 
稳定 。 >Ryv 

3. 应 用 接口 层 

不 同 的 云 存 储 运营 商 根据 业 型 \ "开发 不 同 的 服务 接口 ， 提 供 不 同 的 服务 ， 如 视 
频 监 控 、 A Sy We 

4. 访问 层 x 

任何 一 个 授权 都 厅 以 通过 标准 的 名 缔 口 登录 云 存 储 系 统 ， 享 受 云 存储 服 
务 。 云 存储 运营 间 ， 提 供 的 访问 访问 手段 也 不 同 。 

1 

3.3.2 云 符 储 的 分 类 

云 存 储 目 前 可 以 划分 为 三 种 : 四 公共 云 存 储 ， 即 公有 云 (Public Cloud)， 加 内 部 云 存 
储 ， 即 私有 云 (Private Cloud); @ 混 合 云 存储 ， 即 混合 云 (Hybrid Cloud) 。 

1. 公有 云 

公有 云 指 第 三 方 提供 商 为 用 户 提 供 的 能 够 使 用 的 云 。 公 有 云 一 般 可 通过 Internet 使 
用 ， 可 能 是 免费 的 或 成 本 低廉 的 ， 其 核心 属性 是 共享 资源 服务 。 这 种 云 有 许多 应 用 实例 ， 
可 在 当今 整个 开放 的 公有 网 络 中 提供 服务 。 

与 亚马逊 的 Simple Storage Service(S3) 和 NUTANIX 公司 提供 的 存储 服务 一 样 ， 公 
有 云 可 以 低 成 本 提供 大 量 的 文件 存储 。 供 应 商 可 以 保持 每 个 客户 的 存储 和 应 用 都 是 独立 
的 、 私 有 的 。 其 中 以 Dropbox 为 代表 的 个 人 云 存储 服务 是 公有 云 发 展 较 突出 的 代表 ， 国 
内 比较 突出 的 代表 有 搜狐 企业 网 盘 、 百 度 云 盟 、 乐 视 云 盘 、360 云 盘 、 新 浪 微 盘 和 腾讯 微 
云 等 。 











2. 私有 云 








不 同 于 公有 云 ， 私 有 云 是 建立 在 企业 自 有 设施 的 基础 之 上 的 ， 其 核心 属性 是 专 有 
资源 。 私 有 云 是 为 一 个 企业 客户 单独 使 用 而 构建 的 ， 因 而 能 够 提供 对 数据 、 安 全 性 和 
服务 质量 的 最 有 效 控制 ， 企 业 拥有 基础 设施 ， 并 可 以 控制 在 此 基础 设施 上 部 署 应 用 程 
序 的 方式 ,更 重要 的 是 , 很 多 企业 已 经 建立 了 较 完善 的 硬件 设施 ， 只 要 进行 必要 的 逢 
级 和 改造 ， 这 些 硬 件 资源 便 可 以 在 私有 云 的 建设 中 被 充分 利用 起 来 。 相 比 公 有 云 ， 私 
有 云 完 全 由 企业 单独 构建 ， 一 般 部 署 在 企业 数据 中 心 的 防火 墙 内 。 此 外 ， 在 云 计 算 环 
境 下 ， 服 务 器 利用 率 的 提高 将 极 大 地 改善 数据 中 心 的 工作 效能 ， 更 灵活 的 应 用 部 署 也 
带 来 了 管理 效能 的 提升 。 目 前 可 以 提供 私有 云 的 平台 有 IBM Cloud Private 和 Oracle 私 
有 云 等 。 
p 3. 混合 云 

混合 云 融合 了 公有 云 和 私有 云 ， > 
展 方向 。 出 于 安全 考虑 ， 企 业 更 愿 存储 在 私有 云 中 ， 但 是 同 

【混合 云 的 四 大 时 又 希望 可 以 获得 公有 云 的 i 在 这 种 情况 下 ,混合 云 将 公有 

类 型 应 用 案例 】〗 云 和 私有 云 进 行 混合 和 匹 得 最 佳 效果 ， 既 省 钱 又 安全 因而 应 
用 越 来 越 广泛 。 3 求 访问 ， 特 别 是 需要 临时 配置 容量 时 。 








去 计算 的 主要 模式 和 发 





从 公有 云 上 划 出 一 部 分 容量 配置 或 内 部 云 ， 可 以 帮助 公司 解决 迅速 增长 的 
负载 波动 或 高 峰 。 与 此 同时 ， 混 合 


带 来 了 跨 公有 SEE 和 私有 云 分 配 应 用 的 复杂 性 
的 难题 。 


有 及 3 ee 
tt Re 储 技术 a 具备 以 下 三 个 层面 的 优势 。 


1. 设备 

云 存储 的 存储 设备 数量 庞大 ， 分 布 区 域 各 异 ， 多 个 设备 之 间 协 同 合 作 , 许多 设备 可 
以 同时 为 一 个 人 提供 同一 种 服务 ， 并 且 云 存储 都 是 平台 服务 ， 云 存储 的 供应 商会 根据 用 
户 需求 开发 出 多 种 平台 ,如 IPTYV 应 用 平台 、 视 频 监控 应 用 平台 、 数 据 备 份 应 用 平台 和 
只 要 有 标准 的 公用 应 用 接口， 任何 一 个 被 授权 的 用 户 都 可 以 通过 一 个 简单 的 网 址 登录 云 
存储 系统 ， 享 受 云 存储 服务 。 


2. 功能 层面 


云 存 储 的 容量 分 配 不 受 物 理 硬 盘 的 控制 ， 可 以 按照 客户 的 需求 及 时 扩容 ， 设 备 故障 和 设 
备 升 级 都 不 会 影响 用 户 的 正常 访问 。 云 存储 技术 针对 数据 重要 性 采取 不 同 的 复制 策略 ， 并 且 
全 人 人 和 的 

终止 。 而 且 正 因为 采用 索引 的 架构 ， 系 统 会 自动 将 读 写 指令 引导 到 其 他 存储 节点 ， 读 写 效 
能 完全 不 受 影 响 ， 管 理 人 员 只 4 要 更 换 硬件 即 可 ,数据 也 不 会 丢失 , 换 上 新 的 硬盘 服务 器 后 ， 
系统 会 自动 将 文件 复制 回来 .永远 保持 多 备份 的 文件 ， 从 而 避免 数据 丢失 。 而 在 扩容 时 ， 只 
要 安装 好 存储 节点 ， 接 上 网 络 ， 新 增加 的 容量 便 会 自动 合并 到 存储 中 ， 并 且 数 据 会 自动 迁移 




















到 新 存储 的 节点 ， 不 需要 做 多 余 的 设 定 ， 大 大 缩减 了 维护 人 员 的 工作 量 。 
3. 开支 层面 


传统 存储 模式 下 ,一 旦 完成 资金 的 一 次 性 投入 ,系统 无 法 在 后 续 使 用 中 动态 调整 。 
随 着 设备 的 更 新 换代 ， 落 后 的 硬件 平台 难以 处 置 ; 随 着 业务 需求 的 不 断 变化 ,软件 需要 
不 断 地 更 新 升级 甚至 重 构 来 与 之 相 适应 ， 导 致 维护 成 本 高 兄 ， 很 容易 发 展 到 不 可 控 的 程 
度 。 但 使 用 云 存 储 服 务 可 以 免 去 企业 在 设备 购买 和 技术 人 员 聘 用 上 的 庞大 开支 ， 维 护 工 
作 及 系统 的 更 新 升级 都 由 云 存 储 服务 提供 商 完成 ， 而 且 公 有 云 的 租用 费用 和 私有 云 的 建 
设 费用 会 随 着 云 存储 供应 商 竞争 的 日 趋 激烈 而 不 断 降低 。 云 存储 是 未 来 的 存储 应 用 趋势 

作为 新 生 事物 ， 云 存储 的 优势 是 有 目 共 睹 的 ， 但 不 可 否认 ， 云 存储 也 有 弱势 ， 就 目 
前 情况 来 看 ， 业 界 较 成 功 的 云 存储 服务 较 少 。 








1. 安全 问题 

云 存储 的 好 处 在 于 只 要 有 标准 的 公用 应 用 接口 ， 任 僻 Fein in 
云 存储 系统 ， 查 看 相关 数据 ,但 这 种 便利 性 也 是 云 伤 。 因 为 每 种 设备 都 有 其 
可 攻击 点 ， 倘 若 用 户 借助 手机 端口 访问 云 存 储 办 恰巧 该 用 户 在 使 用 过 程 中 数据 被 
ed adbeast A nt do 
及 


全 技术 ,但 是 这 些 安全 技术 并 不 能 把 云 赣 成 “铜墙铁壁 "， 除 非 进 行 二 次 校 验 或 者 
Te 用 户 访问 相关 数据 的 烦琐 性 。 


2. 访问 速度 问题 yw 
访问 迹 度 慢 是 当前 去 Binnst 也 是 被 许多 用 户 诉 病 的 地 
方 。 截至 目前 , 云 存 处 理 交易 相对 频 yt 要 求 网 络 连接 速度 快 的 数据 库 
ierl 、 


2 hi 
。 案 资料 和 非 结构 和 合 云 存储 消化 ， 如 银行 的 开户 信息 、 过 

一 段 时 间 的 oa \， 以 及 医疗 机 的 病 砷 资料 和 病史 资料 等 。 目 前 访问 加 度 介 
a te 


3. 数据 所 有 权 问 题 


云 存 储 的 主要 功能 是 借助 大 型 存储 设备 将 相同 的 数据 分 别 存储 在 不 同 的 地 域 ， 形 成 数据 
备份 ， 帮 助 用 户 解决 数据 容 灾 问题 。 虽 然 用 户 通过 与 供应 商 签订 服务 水 平 协 议 免 去 了 数据 丢 
失 甚至 数据 遭受 破坏 的 后 顾 之 忧 ， 但 从 另 一 方面 来 说 ， 用 户 的 知情 权 过 少 ， 他 们 只 知道 自身 
的 数据 存储 在 云 存储 中 ， 并 不 知道 数据 的 具体 存储 位 置 或 是 否 在 没有 授予 权限 的 情况 下 被 他 
人 访问 。 知 识 产权 得 不 到 相应 的 保护 ， 数 据 所 有 权 也 得 不 到 相应 的 保障 。 


3.3.4 云 存 储 的 发 展 趋势 


起 初 ， 云 存储 的 作用 是 使 存储 低 成 本 、 可 扩展 和 资源 池 化 ， 从 而 实现 所 谓 的 “ 按 需 
所 取 ”， 涉 及 的 技术 不 仅 有 虚拟 化 存储 、 分 布 式 存储 ， 还 有 网 络 与 负载 均衡 等 。 

网 络 之 于 云 存储 是 重要 的 ， 但 只 是 存储 虚拟 化 的 一 个 功能 。 存 储 虚 拟 化 可 以 在 系统 
架构 的 各 个 层 实 现 ， 而 在 网 络 层 可 以 做 到 横 跨 异 构 磁 盘 阵 列 ， 相 当 于 在 数据 中 心 内 部 构 















建 了 一 个 大 型 资源 池 。 池 化 时 的 异 构 管理 要 确保 存储 的 标准 化 ， 因 为 在 多 云 多 租户 的 环 
境 下 ， 只 有 各 家 采用 相同 的 规范 才能 做 到 被 统一 调用 。 

作为 云 存储 的 基础 ， 虚 拟 化 存储 的 本 质 是 实现 从 物理 存储 到 逻辑 存储 的 转变 。 在 物 
理 介质 与 服务 器 之 间 ， 虚 拟 化 的 对 象 既 可 以 是 网 络 ， 也 可 以 是 主机 或 存储 设备 。 当 然 ， 
这 些 方式 各 有 利 刺 ， 例 如 在 主机 层 虚拟 化 便于 部 署 ， 但 与 存储 有 关 的 软件 要 运行 在 同一 
个 主机 上 ， 越 权 管理 增加 了 核心 数据 的 安全 风险 ， 而 把 功能 集中 在 存储 设备 上 则 会 过 度 
消耗 存储 控制 器 的 资源 。 

随 着 x86 系统 性 能 的 不 断 提升 ， 以 此 来 构建 大 规模 存储 集群 变 为 可 能 。 事 实 上 ， 分 
布 式 存储 早 在 云 计算 之 前 就 出 现 了 。 借 助 分 布 式 文件 系统 ， 不 仅 可 以 提供 弹性 存储 资源 ， 
还 可 以 根据 应 用 需求 提供 各 类 接口 ， 例 如 分 布 式 对 象 存储 的 http 接口 让 用 户 无 须 操心 文 








件 的 存放 位 置 或 是 否 丢失 。 

对 象 存储 、 块 存储 、 文 件 存储 是 分 布 式 存储 的 三 大 利器 人 en 因 
此 适用 的 业务 形态 也 不 同 。 人 林村 机 上 .信和 
即 可 访问 数据 ， 资 源 调 取 效率 较 高 ， 大 规模 数据 库 这 种 部 署 ; 文件 存储 通常 用 于 
应 用 层 ， 通 过 TCP/IP 协议 访问 ， 需 要 用 户 专门 写 ， 因 此 延 时 高 于 块 存储 ， 可 借 
助 NAS 虚拟 化 处 理 非 结 构 化 数据 ; 的 优点 ， 兼 顾 高 速 、 共 享 、 智 能 ， 





并 且 引 入 了 容器 技术 ， 打 包 交 付 和 扩展 


如 今 ， 存 储 方案 已 经 从 传统 架构 和 梅 演 变 ， 用户 在 业务 部 署 时 要 基于 业务 的 实 
际 需 求 ， 结 合 数据 结构 和 规模 特点 、 


诸 提 相应 的 存储 方案 不 能 贸然 全 面 蔡 换 新 架构 而 
增加 额外 的 成 本 支出 。 不 过 长 是 基于 x86 的 分 以 其 集群 架构 实现 的 横向 


扩展 能 力 ， 将 成 为 夫人 入 庆生 入 7 
另 一 备 受 关注 而 有 a ey 公有 云 提供 商 在 机 


器 学 习 和 人 工 智 开发 上 展开 了 激烈 搬 况 而 用 户 可 以 将 这 些 平台 集成 到 各 自 的 


应 用 he PK- 


小 结 













本 章 围绕 大 数据 存储 问题 ， 分 别 介绍 了 传统 存储 、 分 布 式 存储 及 云 存 储 的 相关 概念 
和 知识 。 传 统 数据 存储 方式 有 四 种 : 硬盘 、DAS、NAS 和 SAN。 与 目前 常见 的 集中 式 存 
储 技 术 不 同 ， 分 布 式 存储 技术 并 不 是 将 数据 存储 在 某 个 或 多 个 特定 的 节点 ， 而 是 通过 网 
络 使 用 企业 中 每 台 机 器 上 的 磁盘 空间 ,并 将 这 些 分 散 的 存储 资源 构成 一 个 虚拟 的 存储 设 
备 ， 数 据 分 散 存 储 在 企业 的 各 个 角落 。 为 实现 自动 化 和 智能 化 ， 云 存储 将 所 有 的 存储 资 
源 整 合 到 一 起 ， 实 现 规 模 效应 和 弹性 扩展 ,降低 运营 成 本 ,避免 资源 浪费 。 


~ 
句 关键 术语 


(1) 直 连 式 存储 (2) 网 络 附加 存储 (3) 存 储 区域 网 络 
(4) 分 布 式 存储 (5) 云 存储 








习 题 


1. 选择 题 
(1) 下 列 ( ?存储 采用 分 布 式 混合 并 行文 件 系统 。 

A. 集群 B. 集群 并 行 C. P2P D. 面向 对 象 
(2)( ”) 是 一 种 采用 磁 介质 的 数据 存储 设备 。 

A. 硬盘 B. 软盘 CC 光 些 D. U 盘 
(3) 直 连 式 存 储 指 磁盘 驱动 器 与 ( ) 直 接连 接 。 

A. 客户 端 B. 服务 器 C. 主机 D. 云端 
(4) 网 络 存 储 包 括 ( ) 。 

A. DAS 和 SAN B. DAS 和 N > 从 

C. NAS 和 SAN D. DAS 


(6) 云 存储 架构 的 ( ) 通 过 集群 系统 、 耸 件 系统 和 网 格 计算 等 ， 实 现 云 存储 


(5)( ) 也 称 为 “网 络 存储 器 ”。 A- 
A，DAS B. SAN XS D. 硬 瘟 


设备 之 间 的 协同 工作 。 CD 
A. 存储 层 B. 基础 管 C. 应 用 接口 居 。 。 D, 访问 层 
2. 判断 题 
ne “存储 的 集群 "。 ( 。 ) 
(2) 醒 盘存 储 方 式 适用 污 光 区 数字 视频 监控 系 ¢ 
one pag 实现 平台 的 容 i. 
别 的 保护 。 ( ) 


(4)GPF “= 和 不 支持 大 移交 件 系统 和 大 文件. ( ) 
(5 授权 谷 尽 亿 通过 标准 的 公共 应 用 托 皇 登录 云 存储 系统 ， 享 受 云 存储 服务 ，( ) 
(6) 公 有 云 一 般 可 通过 Internet 使 用 ， 可 能 是 免费 的 或 成 本 低廉 的 ， 其 核心 属性 是 共 


享 资 源 服务 。 ( ) 


3. 简 答 题 

(1) 简 述 采用 硬盘 方式 的 存储 系统 不 能 算 作 严 格 意义 上 的 存储 系统 的 原因 。 
(2) 简 述 NAS 和 SAN 的 区 别 。 

(3) 什 么 是 P2P 存储 ? 

(4) 谈 谈 你 对 GPFS 的 理解 。 

(5) 简 述 云 存 储 的 优势 和 劣势 。 

(6) 云 存储 分 为 哪 几 类 ? 





【第 3 章 习题 答案 】 





第 不 章 
大 数据 处 理 与 计算 
十。 ww < 


知识 要 点 掌握 程度 相关 知识 
架构 ，MapReduce 的 架构 ，YARN 的 架 


~ FS 的 
框 旭 党 
oo 人 各 ed 的 逻辑 


Scala 掌握 Scala 与 Java 的 语法 区 别 及 Scala 的 基本 语法 
Spark SQL PR Spark SQL 的 
Spark Streaming ~ Spark St 本 
Storm 的 基本 概念 ~ 状 悉 未 统 久 保有 名 称 ， 组 件 接口 
Spout 和 Bolt 了 解 SpeWt 和 Bolt 的 函数 
掌握 SS 

从 20 世 政府 和 多 行业 (如 医 章 、 网络、 金融 和 电信 ) 的 信息 化 得 到 了 迅速 发 
展 ， 积 累 了 海量 数据 。 这 些 数据 大 部 分 是 非 结构 化 数据 ， 虽 然 国 内 的 各 类 数据 中 心 已 有 
足够 的 硬件 设施 来 存储 这 些 数据 ， 但 是 如 何 让 这 些 数据 产生 最 大 的 商业 价值 ， 是 目前 数 
据 拥有 者 所 需 考 虑 的 。 此 外 ， 由 于 数据 的 增长 速度 越 来 越 快 、 数 据 量 越 来 越 大 ， 传 统 的 
数据 库 或 数据 仓库 很 难 存储 、 管 理 、 查 询 和 分 析 这 些 数据 ， 如 何在 软件 层面 实现 PB 级 乃 
至 ZB 级 数据 的 处 理 与 计算 也 是 需要 数据 拥有 者 思考 的 。 

近 几 年 ， 由 于 大 数据 处 理 和 应 用 需求 急剧 增长 及 大 数据 处 理 的 多 样 性 ,学 术 界 和 工 
业界 不 断 研究 推出 新 的 或 改进 的 计算 模式 和 系统 工具 。 目 前 主要 有 三 方面 的 重要 发 展 趋 
势 和 方向 ，Hadoop 性 能 提升 和 功能 增强 、 混 合式 大 数据 计算 模式 和 基于 内 存 计算 的 大 数 
据 计算 模式 与 技术 。 

























































4.1 Hadoop 处 理 框架 


Hadoop 框架 是 用 Java 语言 编写 的 ， 它 的 核心 是 HDFS 和 MapReduce。HDFS 为 大 
数据 提供 了 有 效 的 存储 方法 ，MapReduce 为 大 数据 提供 了 高 效 的 计算 方法 。Hadoop 在 业 





内 得 到 了 广泛 应 用 ， 同 时 成 为 大 数据 的 代名词 。Hadoop 是 由 Apache 开发 的 一 个 项 目 ， 
是 一 个 开源 的 可 运行 于 大 规模 集群 上 的 分 布 式 并 行 编 程 框架 ， 由 HDFS、MapReduce、 
HBase、Hive 和 ZooKeeper 等 组 成 。Hadoop 的 核心 组 件 包括 Hadoop 文件 系统 (HDFS) 
和 MapReduce 计算 框架 ,它们 是 谷歌 文件 系统 (GFS) 和 MapReduce 的 开源 实现 版 本 。 
MapReduce 和 分 布 式 文件 系统 的 设计 ， 使 得 应 用 程序 能 够 在 成 千 上 万 独立 计算 的 计算 机 
上 运行 并 操作 PB 级 的 数据 。Hadoop 集群 可 以 在 三 种 模式 下 运行 : 单机 模式 、 伪 分 布 式 
模式 和 全 分 布 式 模式 。 在 单机 模式 中 不 存在 守护 进程 所 有 数据 运行 在 一 个 JVM 上 。 单 
机 模式 适用 于 开发 过 程 中 运行 MapReduce 程序 ， 也 是 最 少 使 用 的 一 种 模式 。 


4.1.1 HDFS 国 上 举国 


上 的 可 人 


地 殊 且 





HDFS 是 Hadoop 的 一 个 分 布 式 文件 系统 ， 是 可 运行 在 廉价 
错 分 布 式 文件 系统 。 它 既 与 分 布 式 文件 系统 有 共同 点 ， 
明显 的 特征 。 在 处 理 海量 数据 时 ， 经 常 碰 到 一 些 大 文件 (G8 馈 渤 到 TB 级 )， 【分布 式 
在 常规 的 系统 上 ， ee 加 HDFS 优化 了 “文件 系统 
大 文件 的 流 式 读 取 方式 ， 它 将 一 2 个 数据 块 ， 分 发 到 集群 的 节 








点 上 ， 从 而 实现 了 高 吞吐 量 的 数据 访问 ， 集 个 节点 ， 并 支持 千 万 级 别 的 文件 


处 理 。 因 此 ，HDFS 非常 适用 于 大 规模 
AR So 让 数据 在 集群 





的 节点 间 进 行 复制 。HDFS 有 一 参数 ， 默认 为 3。 利 用 块 复制 的 概念 实现 了 一 
个 具有 高 容错 性 的 系统 。 = 障 时 ， TT 因为 
具有 容错 的 特性 ，HDFS 适 在 廉价 的 机 器 2 但 十、 块 数据 及 其 备份 不 能 放 在 同 

一 个 机 器 上 ， mp 备份 会 与 原 数 据 忆 起 丢失 ， 备份 也 就 没 意 义 了 。 通 常 ， 
大 型 ade6g 作 吕 很 多 机 架 上 S 运行 在 一 个 具有 树 状 网 络 拓扑 结构 
的 集群 上 ， 数据 中 心 组 成 ， re 每 个 机 架 上 有 多 台 
计算 机 ， 此 四 下 同 计算 机 节点 之 间 的 通信 能 发 生 在 同一 机 架 内 。 另 外 ， 






为 了 提高 容错 能 力 ， 名 字 节 点 会 尽 可 能 把 数据 块 的 副本 分 别 放 到 多 个 机 哥 
上 。 综 合 考虑 这 两 点 ， 在 Hadoop 中 设计 了 机 架 感 知 (Rack Awareness， 
RA) 功 能 。HDFS 使 用 RA 功能 ， 先 将 一 份 副本 放 入 同 机 架 上 的 服务 器 ， 然 
后 复制 一 份 到 其 他 服务 只 (这 台 服 务 器 可 能 位 于 不 同 数据 中 心 )。 如 此 ， 若 【机 架 感知 

个 数据 点 发 生 故 障 ， 即 可 从 另 一 个 机 架 上 调用 。 除 了 RA 功能 ， 现 在 还 。 的 芭 荣 】 
方 基于 aeaie Code 的 编 各 存储 方法 ， 这 种 方法 本 来 用 于 通信 容错 领域 ， 既 可 节约 空间 
又 可 达到 容错 的 目的 。 目 前 谷歌 和 淘宝 等 存储 的 大 数据 规模 为 PB 级 ， 大 数据 增长 速度 远 
超 摩 尔 定律 中 信息 技术 进步 的 速度 。 如 何 利 用 有 限 存储 资源 满足 迅速 膨胀 的 存储 需求 是 
亟 需 解决 的 问题 。 多 副本 策略 在 满足 存储 可 靠 和 优化 数据 读 性 能 的 同时 ， 也 不 可 避免 地 
出 现存 储 资 源 利用 率 低 的 缺陷 。Erasure Code 在 满足 与 多 副本 策略 具有 相 国耻 国 
同 可 靠 性 的 前 提 下 ， 存 储 资源 利用 率 更 高 。 当 前 ， 微 软 、 谷 歌 、Facebook、; 
亚马逊 和 淘宝 等 互联 网 巨头 早已 开始 研究 Erasure Code， 并 将 其 实际 运用 于 
各 自 的 主流 存储 系统 中 。 

HDFS 是 一 个 高 度 容错 的 分 布 式 文件 系统 ， 能 够 提供 高 吞吐 量 的 数据 【学 个 定律 】 





























访问 ,适合 存储 PB 级 的 数据 。HDFS 采用 Master/Slave 架构 ,一 个 HDFS 集群 由 一 个 
Re dae 它们 通常 配置 在 不 同 的 机 器 上 。 名 字 
节点 是 一 个 中 心服 务 器 ， 管理 文件 系统 的 名 字 空 间 (NameSpace) 和 客户 端 对 文件 的 访 
问 ; ha 管理 ] 其 所 在 节点 上 的 存储 。HDFS 架构 如 图 4. 1 所 示 。 








名 字 节 点 执行 文件 系统 的 名 打开 、 关 闭 和 重 命名 文件 或 目录 ， 也 负责 确 
定数 据 块 到 具体 数据 节点 的 ND ass miei 
ee 建 、 删 除 和 复制 

单一 节点 的 名 字 节 点 色 Ce 点 存储 集群 上 所 有 文件 的 目录 
和 人 9 位 置信 息 ee 
器 ， 但 不 存储 文 身 。 ee 个 节点 或 一 台 机 器 ， 用 来 存放 文件 原 数 


图 4.1 FS 架 交 
从 内 部 看 ， i 这 些 块 存储 在 一 组 数据 节点 上 。 
字 节 点 执行 文件 系统 的 名 字 空 间 操作 


据 和 复制 数据 SN 从 名 字 节 点 分 配 过 OA 
oo、 
HDFS 具有 如 下 基本 特征 。 


(1) 整 个 集群 有 单一 的 命名 空间 。 

(2) 具 有 数据 一 致 性 ， 适 合 一 次 写 和 多 次 读 取 的 模型 。 没 有 成 功 创建 文件 之 前 ,在 客 

端 无 法 看 到 该 文件 。 

(3) 文 件 会 被 分 割 成 多 个 文件 块 ， 每 个 文件 块 被 分 配 存储 到 数据 节点 上 ,并且 根据 配 
置 会 有 复制 文件 块 来 保证 数据 的 安全 性 。 


4. 1.2 MapReduce 


MapReduce 是 Hadoop 的 核心 组 成 部 分 之 一 ， 实 现 了 由 谷歌 工程 师 提 出 的 MapReduce 编程 
模型 。MapReduce 计算 架构 如 图 4. 2 所 示 。MapReduce 是 一 种 新 的 并 行 编程 模型 首先 对 应 用 
输入 数据 中 的 逻辑 记录 执行 Map 任务 ,将 不 同 的 记录 映射 到 相应 的 键 值 上 ; 然后 对 所 有 相同 
键 值 的 记录 执行 Reduce 任务 ， 以 合并 在 Map 过 程 中 派生 出 的 数据 键 值 对 。MapReduce 编程 模 
型 适合 处 理 具有 大 规模 的 输入 数据 集 并 且 计算 过 程 可 以 分 步 到 多 个 计算 节点 上 的 应 用 。 








MapReduce 作 业 
7 \ 
7 








Se 
WN 


和 \ 分 配 Reduee 任 务 
\ 
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在 典型 的 MapReduce 应 用 场景 
大 的 Hadoop 集群 ， 并 在 每 台 1 
计算 机 被 委 以 JobTracker 的 : ， 和 主要 对 集群 中 ce 作业 的 执行 进行 监督 和 管 


理 ，JobTracker 通常 与 攻 字 节点 在 一 个 节点 启 本 算 机 ， 称 为 TaskTracker， 负 责 
MapReduce 作业 ap 住 务 和 Reduce 任务 的 现 。 


动 
: 现 

人 作业 提交 给 H 刹 和 群 时 ， 相 关 的 输入 数据 首先 被 划分 为 多 
个 片段 ; 然 Jracker 挑选 空闲 的 Ta fracker, 对 数据 片段 并 行 地 执行 Map 任务 ; 
接着 这 些 由 Map 任务 产生 的 中 间 记 录 会 被 再 次 划分 ， 由 JobTracker 挑选 空闲 的 Task- 
Tracker， 对 被 划分 的 记录 并 行 地 执行 Reduce 任务 ， 从 而 获得 与 每 个 键 值 相对 应 的 数据 集 
合 ， 作 为 运算 结果 。 为 了 减少 数据 通信 开销 ， 中 间 结 果 数据 进入 Reduce 节点 前 会 进行 一 
定 的 合并 处 理 。 一 个 Reduce 节点 处 理 的 数据 可 能 来 自 多 个 Map 节点 ,为 了 避免 Reduce 
计算 阶段 发 生 数据 相关 性 ，Map 节点 输出 的 中 间 结 果 需 使 用 一 定 的 策略 进行 适当 的 划分 
处 理 ， 保 证 具有 相关 性 的 数据 发 送 到 同一 个 Reduce 节点 。 

此 外 ,系统 会 进行 一 些 计算 性 能 优化 处 理 ， 如 对 最 慢 的 计算 任务 执行 多 备份 ， 选 最 
快 完成 者 作为 结果 。 反 复 执行 以 上 过 程 ， 直到 MapReduce 作业 中 的 所 有 Map 任务 和 Re- 
duce 任务 执行 完毕 。MapReduce 计算 架构 有 效 地 将 用 户 提交 的 MapReduce 作业 自动 并 行 
化 且 将 其 分 布 到 大 规模 的 计算 节点 上 , 非常 适合 在 由 大 量 计算 机 组 成 的 分 布 式 并 行 环境 
中 进行 数据 处 理 。 

MapReduce 通过 把 对 数据 集 的 大 规模 操作 分 发 给 网 络 上 的 每 个 节点 来 实现 可 靠 性 ， 
每 个 节点 会 周期 性 地 返回 它 所 完成 的 工作 和 最 新 的 状态 。 如 果 一 个 节点 保持 沉默 超过 一 
个 预 设 的 时 间 间 隔 ， 主 控 节 点 记录 该 节点 的 状态 为 死亡 ， 并 把 分 配给 这 个 节点 的 数据 发 


















送 到 其 他 节点 。 每 个 操作 使 用 命名 文件 的 原子 操作 以 确保 不 会 发 生 并 行 线程 间 的 冲突 

设计 上 ，MapReduce 具有 以 下 主要 技术 特征 。 

1. 向 “外 ”横向 扩展 ， 而 非 向 “上 ”纵向 扩展 

MapReduce 集群 的 构建 选用 价格 便宜 、 易 于 扩展 的 低 端 商用 服务 器 ， 而 非 价格 昂贵 、 
不 易 扩 展 的 高 端 服务 器 。 大 规模 数据 处 理 时 ， 由 于 需要 存储 大 量 数据 ， 基 于 低 端 服务 器 
的 集群 远 比 基 于 高 端 服务 器 的 集群 优越 ， 这 也 是 MapReduce 并 行 计算 集群 基于 低 端 服务 
器 实现 的 原因 。 

2. 失效 是 常态 


MapReduce 集群 中 使 用 大 量 的 低 端 服务 器 ,因此 节点 硬件 失效 和 软件 出 错 是 常态 。 
因为 一 个 具有 良好 设计 和 高 容错 性 的 并 行 计算 系统 不 能 因为 节点 失效 而 影响 计算 服务 的 
人 人 何 一 个 节点 失效 时 ， 











其 他 节点 要 能 够 无 颖 接管 失效 节点 的 计算 任务 ; 失效 节点 应 能 自动 无 颖 地 加 入 集 
群 ， 而 不 需要 管理 员 人 工 进行 系统 配置 。 

MapReduce 并 行 计算 软件 框架 使 用 了 多 种 有 ? 测 和 恢复 机 制 ， 如 节点 自动 重启 
技术 ， ee ， 能 有 效 检测 和 恢复 失效 节点 。 


3. 将 处 理 向 数据 靠 扰 和 迁移 
传统 高 性 能 计算 系统 通常 有 4 fn 些 外 存储 器 节点 相连 ， 的 


域 网 络 连接 的 磁盘 阵列 。 因 此 扣 外 再 时 ， 外科 引 数 所 VO 访问 全 成为 一 个 
制约 系统 性 能 的 瓶颈 。 By. 
为 了 减少 大 规模 数 算 系统 中 的 数据 
移 。MapReduce 习 
的 数据 ， 以 发 挥 FE 地 化 优势 ， 六 宅 
其 他 可 用 计算 SN 并 把 数据 传送 至 此 。“ 
4 顺序 处 理 数据 ， 志 和 免 随机 访问 数据 


大 规模 数据 处 理 的 特点 决定 了 大 量 的 数据 记录 难以 全 部 存放 在 内 存 中 ， 而 通常 只 能 
放 在 外 存 中 进行 处 理 。 由 于 磁盘 的 顺序 访问 要 和 远 比 随机 访问 快 得 多 ， 因 此 MapReduce 主 
要 被 设计 为 面向 顺序 式 大 规模 数据 的 磁盘 访问 处 理 。 

为 了 实现 面向 大 数据 集 批 处 理 的 高 春 吐 量 的 并 行 处 理 ，MapReduce 可 以 利用 集群 中 
的 大 量 数据 存储 节点 同时 访问 数据 ， 以 此 利用 分 布 集群 中 大 量 节点 上 的 磁盘 集合 提供 高 
带宽 的 数据 访问 和 传输 。 

5. 为 应 用 开发 者 隐藏 系统 层 细 节 


在 软件 工程 实践 中 ,之 所 以 专业 程序 员 认 为 编写 程序 困难 ,是 因为 程序 员 需 要 记 住 
太 多 的 编程 细节 ， 从 变量 名 到 复杂 算法 的 边界 情况 处 理 , 这 对 大 脑 记忆 是 一 个 巨大 的 认 
知 负担 ， 程 序 员 需要 高 度 集中 注意 力 。 而 编写 并 行程 序 更 困难 ， 如 需要 考虑 多 线程 中 诸 
如 同步 等 复杂 烦琐 的 细节 。 由 于 并 发 执行 中 的 不 可 预测 性 ， 程 序 的 调试 查 错 也 十 分 困难 ， 
而 且 在 处 理 大 规模 数据 时 ， 程 序 员 需 要 考虑 诸如 数据 分 布 存储 管理 、 数 据 分 发 、 数 据 通 












， 考 虑 将 处 理 向 数据 靠拢 和 迁 
， 计 算 节点 将 首先 尽量 计算 本 地 存储 
处 理 本 地 数据 时 ， 再 采用 就 近 原 则 寻找 














信和 同步 、 计 算 结果 收集 等 诸多 细节 问题 。 

MapReduce 提供 了 一 种 抽象 机 制 ， 将 程序 员 与 系统 层 细节 隔离 开 来 ， 程 序 员 仅 需 
述 需要 计算 什么 ， 而 具体 如 何 计算 则 交 由 系统 的 执行 框架 处 理 ， 这 样 程序 员 可 从 系统 
细节 中 解放 出 来 ， 致 力 于 其 应 用 本 身 计算 问题 的 算法 设计 。 

6. 平滑 无 缝 的 可 扩展 性 

可 扩展 性 包括 数据 扩展 性 和 系统 规模 扩展 性 。 理 想 的 软件 算法 应 当 能 随 着 数据 规模 
的 扩大 而 表现 出 持续 的 有 效 性 ， 性 能 的 下 降 程度 应 与 数据 规模 扩大 的 倍数 相当 。 在 集群 
规模 上 ， 要求 算 法 的 计算 性 能 应 能 随 着 节点 数 的 增加 而 保持 近似 于 线性 的 提高 。 绝 大 多 
数 现 有 的 单机 算法 达 不 到 以 上 要 求 ， 把 中间 结果 数据 维护 在 内 存 中 的 单机 算法 在 处 理 大 
规模 数据 时 会 很 快 失效 ， 从 单机 到 基于 大 规模 集群 的 并 行 计算 实际 需要 完全 不 同 的 算法 
设计 ， 而 MapReduce 在 很 多 情况 下 能 实现 以 上 理想 的 可 扩展 性 。 多 项 研究 发 现 ， 对 
Ag i 保持 近似 于 线性 的 


提高 。 
4.1.3 YARN 站 ) 


为 从 根本 上 解决 旧 的 MapReduce 框架 的 Wk， 促进 Hadoop 框架 更 长 远 的 发 展 ， 
完全 重 构 ， 发 生 了 根本 的 变化 。 新 的 Map- 


从 Hadoop 0. 23. 0 版 本 开始 ，MapRed 
Reduce 框 架 名 为 MapReduce 2.0( 或 YARN(Yet Another Resource Negotiator, 
另 一 种 资源 协调 者 )。YARN 4 Hadoop 资源 管 : 也 是 一 个 通用 资源 管理 系 
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统 ， 可 为 上 层 应 用 提供 统 源 和 出 攻 信 入 2 在 利用 率 、 资 源 统一 管理 和 
数据 共享 等 方面 带 来 了 大 

开发 ee 了 弥补 MapReduse 的 电信 尼 ， 并 提升 可 伸缩 回 H 守 :加 
性 (支持 1 万 个 节 ? 20 个人 和 可 靠 性 和 集群 利用 率 。 2 
YARN nm JobTracker 的 两 床 主 要 功能 (资源 管理 和 作业 站 
调度 /监控 ) ， 方法 是 创建 一 个 全 局 的 资源 管理 器 (Resource Manager) 
和 若干 个 针对 应 用 程序 的 应 用 管理 器 (Application Master) 。 这 里 的 应 用 【有 向 无 环 图 】 
程序 是 指 传统 的 MapReduce 作业 或 作业 的 有 向 无 环 图 (Directed Acyclic Graph，DAG) 。 
资源 管理 器 和 每 一 台 机 器 的 节点 管理 器 (Node Manager) 能 够 管理 用 户 在 各 机 器 上 的 进程 ， 
并 组 织 计 算 。YARN 架构 如 图 4. 3 所 示 。 
每 一 个 应 用 的 应 用 管理 器 都 是 一 个 详细 的 框架 库 ， 它 使 从 资源 管理 器 获得 的 资源 和 
节点 管理 器 协同 工作 来 运行 和 监控 任务 。 图 4. 3 中 资源 管理 器 支持 分 层级 的 应 用 队列 ， 这 
些 队 列 享有 集群 一 定 比例 的 资源 。 从 某 种 意义 上 讲 , 它 只 是 一 个 调度 器 ,在 执行 过 程 中 
不 对 应 用 进行 监控 和 状态 跟踪 。 同 样 ， 它 也 不 能 重启 因应 用 失败 或 者 硬件 错误 而 运行 失 
败 的 任务 。 资 源 管理 器 是 基于 应 用 程序 来 调度 资源 的 需求 的 ， 每 个 应 用 程序 需要 不 同类 
型 的 资源 ， 因 此 需要 不 同 的 容器 。 资 源 包括 内 存 、CPU、 磁 盘 和 网 络 等 ， 可 以 看 出 与 现 
有 的 MapReduce 固定 类 型 的 资源 使 用 模型 有 显著 区 别 。 资 源 管理 器 提供 一 个 调度 策略 的 
插件 ， 负 责 将 集群 资源 分 配给 多 个 队列 和 应 用 程序 。 调 度 插件 可 以 基于 现 有 的 能 力 调度 
和 公平 调度 模型 。 节 点 管理 器 是 每 一 台 机 器 框架 的 代理 ,是 执行 应 用 程序 的 容器 ， 监 控 












































+ 


应 用 程序 的 资源 使 用 情况 并 向 调度 器 汇报 。 每 个 应 用 的 应 用 管理 器 向 调度 器 索要 适当 的 
资源 容器 ,运行 任务 ,跟踪 应 用 程序 的 状态 并 监控 其 进程 分析 任 务 的 失败 原因 。 







客户 端 应 用 | 、 
客户 六 应 用 | 一 


YARN 分 层 结构 的 本 质 是 资源 管理 器 > 个 集群 并 管理 应 用 程序 向 基础 计算 资 
源 的 分 配 。 se 内 存 、 带 宽 等 ) 精 心安 排 给 基础 的 节点 
管理 器 。 资 源 管理 器 还 与 应 用 管 分 配 资源 ， 管理 器 一 起 启动 和 监视 它们 
的 基础 应 用 程序 。 这 3 TaskTrac Se 资源 管理 器 承担 了 


来 自 eke 通过 节点 管 en hdd 尽管 目 
前 的 资源 更 力 Ee, 信 未 来 会 带 来 基于 : 务 的 新 资源 类 型 ， 如 图 形 处 理 单元 或 专用 
处 理 设备 。 RN 角度 讲 , 应 用 管理 器 是 用 户 代 码 ， 因 此 存在 潜在 的 安全 问题 。 
YARN 假设 应 用 管理 器 存在 错误 甚至 是 恶意 的 错误 ， 因 此 将 Application Master 模块 代码 
当 作 无 特权 的 代码 。 
节点 管理 器 管理 YARN 集群 中 的 所 有 节点 ， 提 供 针对 集群 中 每 个 节点 的 服务 ， 从 监 
督 对 一 个 容器 的 终生 管理 到 监视 资源 和 跟踪 节点 健康 。 节 点 管理 器 管理 抽象 容器 ， 这 些 
容器 代表 可 供 一 个 特定 应 用 程序 使 用 的 针对 每 个 节点 的 资源 。YARN 继续 使 用 HDFS 层 ， 
其 主要 名 字 节 点 用 于 元 数据 服务 ， 而 数据 节点 用 于 分 散在 一 个 集群 中 的 复制 存储 服务 。 

要 使 用 一 个 YARN 集群 ， 首 先 需要 来 自 包含 一 个 应 用 程序 的 客户 的 请 求 。 资 源 管理 
器 协商 一 个 容器 的 必要 资源 ， 启 动 一 个 应 用 管理 器 来 表示 已 提交 的 应 用 程序 。 通 过 使 用 
一 个 资源 请 求 协议 ， 应 用 管理 器 协商 每 个 节点 上 供应 用 程序 使 用 的 资源 容器 。 执 行 应 用 
程序 时 ， 应 用 管理 器 监视 容器 直到 完成 。 当 应 用 程序 完成 时 ， 应 用 管理 器 从 资源 管理 器 
上 注销 其 容器 ， 执 行 周期 便 结束 了 。 

YARN 的 核心 思想 是 分 离 JobTracker 和 TaskTracker。YARN 包含 下 面 四 大 构成 
组 件 。 

(1) 一 个 全 局 的 资源 管理 器 。 


JobTracker 的 任务 。 ww 
应 用 管理 器 管理 二 ns 的 的 每 个 实例 。 应 用 管理 器 负责 协调 
2 

















(2) 资 源 管理 器 的 所 有 节点 代理 一 一 节点 管理 器 。 
(3) 表 示 每 个 应 用 的 应 用 管理 器 。 
(4) 每 个 应 用 管理 器 在 节点 管理 器 上 运行 多 个 容器 。 回 红 由 加 
YARN 从 某 种 意义 上 来 说 是 一 个 云 操作 系统 ， 负 责 集群 的 资源 管理 。 于 
在 操作 系统 上 可 以 开发 各 类 应 用 程序 ， 这 些 应 用 程序 可 以 同时 利用 Hadoop 入 
集群 的 计算 能 力 和 丰富 的 数据 存储 模型 ， 共 享 同 一 个 Hadoop 集群 和 驻 留 在 
集群 上 的 数据 。 此 外 ，YARN 创建 的 框架 还 可 以 利用 YARN 的 资源 管理 【 云 操作 系统 了 
器 ， 提 供 新 的 应 用 管理 器 实现 。 本 章 后 面 将 要 介绍 的 Spark 处 理 框架 就 支持 YARN 。 








4. 1.4 ZooKeeper 


ZooKeeper 是 一 个 开源 的 分 布 式 应 用 程序 协调 服务 ， 简 称 分 协作 服务 ， 是 谷歌 的 
Chubby( 谷 歌 的 分 布 式 锁 服务 ) 的 开源 实现 ， 是 Hadoop 和 S 要 组 件 。 它 是 一 个 





为 分 布 式 应 用 提供 一 致 性 服务 的 软件 ， 主 要 负责 分 布 式 ， 用 来 完成 配置 管理 、 
名 字 服 务 、 提 供 分 布 式 锁 和 集群 管理 等 工作 。ZooKe 9 骨 慰 是 封装 好 复杂 易 错 的 关键 
服务 ， 将 简单 易 用 的 接口 和 性 能 高 效 、 功 能 稳定 的 有 禹 多 给 用 户 。 

ZooKeeper 服务 自身 组 成 一 个 集群 ，2n 十 允许 nn 个 服务 失效 。ZooKeeper 服务 
有 两 个 角色 一 个 是 Leader， 提 供 1 步 ; 另 一 个 是 Follower， 提 供 读 服务 。 
Leader 失效 后 会 在 Follower 中 重新 选 淮 新 的 ZooKeeper 逻辑 图 如 图 4. 4 所 示 。 






图 4.4 ZooKeeper 逻辑 图 


ZooKeeper 的 读 写 速度 快 ， 并 且 读 的 速度 比 写 的 速度 更 快 。 在 分 布 式 数据 库 中 应 用 
ZooKeeper 协调 技术 可 以 加 强 集群 稳定 性 和 集群 持续 性 ， 保 证 集群 的 有 序 性 和 高 效 性 。 
ZooKeeper 的 运行 实例 称 为 ZooKeeper 服务 。 如 图 4. 4 所 示 ，ZooKeeper 服务 可 由 一 个 或 
多 个 服务 器 组 成 ， 应 用 程序 可 以 通过 ZooKeeper 的 客户 端 连 接 到 ZooKeeper 服务 器 ， 由 
于 所 有 服务 器 存储 的 元 数据 都 是 一 致 的 ， 所 以 连接 到 任意 服务 器 所 获得 的 元 数据 视图 都 
是 一 致 的 ， 这 种 复制 机 制 保证 了 元 数据 的 高 可 靠 性 和 高 可 扩展 性 。 此 外 ,由 于 各 个 服务 
器 在 内 存 中 保存 元 数据 ， 因 此 为 ZooKeeper 服务 的 高 性 能 提供 了 基础 。 

ZooKeeper 是 以 Fast Paxos 算法 为 基础 的 ，Paxos 算法 存在 活 锁 问题 ， 回 回 
即 当 有 多 个 Proposer 交错 提交 时 ， 有 可 能 互相 排斥 ， 导 致 没有 Proposer 能 
提交 成 功 。 而 Fast Paxos 经 优化 后 选举 产生 一 个 Leader， 只 有 Leader 才能 i 


提交 Proposer。 因 此 ， 要 想 了 解 ZooKeeper， 首 先 需要 了 解 FastPaxos。 
【 活 锁 】 








为 了 帮助 读者 理解 ZooKeeper 的 作用 ， 这 里 举 一 个 简单 的 例子 。 假 设 有 20 个 搜索 引 
擎 的 服务 器 (每 个 负责 总 索引 中 的 一 部 分 搜索 任务 )、1 个 总 服务 器 (负责 向 这 20 个 搜索 引 
擎 的 服务 器 发 出 搜索 请 求 并 合并 结果 集 )、1 个 备用 的 总 服务 器 (负责 当 总 服务 器 罕 机 时 蔡 
换 总 服务 器 ) 、1 个 Web 的 通用 网 关 接 口 [(Common Gateway Interface，CGI) ， 负 责 向 
总 服务 器 发 出 搜索 请 求 ]。 搜 索引 擎 的 服务 器 中 有 15 个 服务 器 提供 搜索 服务 ，5 个 服务 器 
生成 索引 。 这 20 个 搜索 引擎 的 服务 器 经 常 让 正在 提供 搜索 服务 的 服务 器 停止 提供 服务 而 
开始 生成 索引 ,或 使 生成 索引 的 服务 器 生成 完 索 引 后 提供 搜索 服务 。 使 用 ZooKeeper 可 
以 保证 总 服务 器 自动 感知 提供 搜索 服务 的 服务 器 的 数量 ， 并 向 这 些 服务 器 发 出 搜索 请 求 ， 
当 总 服务 器 宕 机 时 自动 启动 备用 的 总 服务 器 。 

ZooKeeper 会 维护 一 个 具有 层次 关系 的 数据 结构 。 类 似 于 一 个 文件 系统 的 目录 结构 。 
ZooKeeper 数据 模型 结构 如 图 4.5 所 示 。 
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图 4. 5 ZooKeeper 数据 模型 结构 


如 图 4. 5 所 示 ，ZooKeeper 使 用 树 状 模型 来 存储 数据 ， 用 来 存储 数据 的 每 个 节点 称 为 
znode， 每 个 znode 都 有 一 条 唯一 的 路 径 。 这 种 模型 与 标准 文件 系统 中 的 树 状 模型 类 似 ， 
应 用 程序 使 用 ZooKeeper 客户 端 API 操作 znode 来 存 取 数据 。 

znode 有 两 种 类 型 : persistent 和 ephemeral， 这 两 种 类 型 又 可 以 与 sequential 属性 相 
结合 。ephemeral 类 别 的 znode 会 在 创建 结束 后 被 删除 ， 而 persistent 类 型 的 znode 是 持久 
性 的 。sequential 属性 是 指 系统 分 配给 该 znode 的 一 个 唯一 的 序列 号 ，ZooKeeper 保证 该 
序列 号 是 单 向 增 大 的 ， 即 后 创建 的 znode 所 获得 的 序列 号 比 先 创建 的 znode 的 序列 号 大 。 

















客户 端 可 以 通过 API 在 znode 上 创建 watch 监控 znode 的 状态 变化 ， 当 znode 被 删除 或 更 
新 时 ， 在 该 znode 上 创建 watch 的 客户 端 会 接 到 通知 ， 进 而 作 相应 处 理 。 

ZooKeeper 服务 提供 了 一 组 特性 ， 使 用 ZooKeeper 服务 的 分 布 式 应 用 程序 可 以 依赖 于 
这 组 特性 ， 具 体 如 下 。 

51) 顺序 一 致 性 。 保 证 所 有 的 更 新 操作 按照 提交 的 先后 顺序 执行 。 

(2) 原 子 性 。 更 新 操作 要 么 成 功 ， 要 么 失败 ， 不 会 有 中 间 状 态 。 

(3) 单 系统 镜像 (视图 一 致 性 )。 无 论 客户 端 连接 到 哪个 服务 器 ， 看 到 的 ZooKeeper 视 
图 绝对 一 致 。 

(4) 可 靠 性 。 一 旦 一 个 更 新 操作 被 应 用 ， 那 么 在 客户 端 更 新 之 前 ， 其 值 不 会 改变 ; 当 
超过 半数 的 ZooKeeper 服务 器 可 用 时 ， 整 个 服务 是 可 用 的 。 

(5) 实 时 性 。 在 特定 的 一 段 时 间 内 ， "和 








4.2 Spark 处 理 框架 SS 


随 着 大 数据 的 发 展 ， 人 们 对 大 数据 的 处 理 要 习 ， 原 有 的 批 处 理 框架 MapRe- 
duce 适合 离线 计算 ， 无 法 满足 对 实时 性 要 求 如 实时 推荐 和 用 户 行为 分 析 等 。 
因此 ， 由 Hadoop 系统 发 展 出 以 Spark 为 人 计算 框架 。 相 比 MapReduce，Spark 速 
度 快 、 开 发 简单 ， 并 且 能 够 同时 兼顾 < 时 数据 分 析 。 

Spark 是 加 州 大 学 伯克利 分 校 蝎 -abs 开发 的 开源 分 布 式 轻 量 级 通用 计算 框架 ， 
并 于 2014 年 2 月 成 为 Apache is 由 于 sear. 因此 拥有 比 Ha- 
doop 更 高 的 性 能 ， 并 且 支 竺 泌 笨 语言 (Scala 、 Je 和， Spark 类 似 于 MapReduce 
框架 ， 具有 MapRedu 点 ， 但 不 同 的 是 Jshb 中 由 输出 结果 可 以 保存 在 内 存 中 ， 从 而 
不 再 需要 读 写 HD 而 /MapReduce 的 过 或 放 在 文件 系统 上 ， 因此 , 在 性 能 上 ， 
Spark 比 MaRReucg 答 架 快 100 信 左 大 入 100TB 的 数据 只 需要 20min。 正 是 因为 
Spark 主要 在 执行 ， 所 以 其 对 内 存 的 要 求 非常 高 ， 一 个 节点 通常 需要 配置 24GB 的 
内 存 。 在 业界 ， 有 时 把 MapReduce 称 为 批 处 理 计 算 框 架 ， 把 Spark 称 为 实时 计算 框架 、 
内 存 计算 框架 或 流 式 计算 框架 。 

Hadoop 使 用 数据 复制 来 实现 容错 性 ， 而 Spark 使 用 弹性 分 布 式 数据 集 (Resilient Dis- 
tributed Datasets，RDD) 数 据 存储 模型 来 实现 数据 的 容错 性 。RDD 是 只 读 的 、 分 区 记录 
的 集合 。 如 果 RDD 的 一 个 分 区 丢失 ， 因 其 含有 重建 这 个 分 区 的 相关 信息 ， 就 避免 了 使 用 
数据 复制 来 保证 容错 性 的 要 求 ， 从 而 减少 了 对 磁盘 的 访问 次 数 。 通 过 RDD， 后 续 步 骤 需 
要 相同 数据 集 时 不 必 重 新 计算 或 从 磁盘 加 载 ， 使 得 Spark 非常 适用 于 流水 线 式 的 处 理 。 
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4.2.1 Scala 


Scala(Scalable Language) 是 一 门 多 范式 的 编程 语言 。2001 年 洛桑 联邦 理工 学 院 的 
Martin Odersky 基于 Funnel 编程 语言 开始 设计 Scala。Funnel 是 一 种 结合 了 函数 式 编程 
思想 和 Petri 网 的 编程 语言 。 

Spark 框架 是 用 Scala 语言 开发 的 ， 并 提供 了 Scala 语言 的 一 个 子 集 。 设 计 Scala 的 初 
衷 是 创造 一 种 能 够 更 好 地 支持 组 件 的 语言 。Scala 的 编译 器 把 源 文件 编译 成 Java 的 class 








文件 ， 从 而 让 Scala 程序 运行 在 JVM 上 。Scala 兼容 现 有 的 Java 程序 ， 从 Scala 中 可 调用 
所 有 的 Java 类 库 。Scala 能 够 让 程序 员 花 更 少 的 时 间 和 代码 编写 相同 功能 的 Java 程序 。 
在 JVM 上 ，Scala 代码 多 了 一 个 运行 库 scala-library. jar。 


Scala 支持 交互 式 运行 ， 开 发 人 员 无 须 编译 就 能 运行 代码 。 例 如 ,输入 下 列 Scala 代 
码 ， 然 后 按 Enter 键 : 


scala> println (" Hello, Scala!"); 
将 产生 以 下 结果 : 
Hello, Scala! 


Scala 和 Java 的 语法 的 最 大 区 别 在 于 “;”( 行 结束 符 ) 是 可 选 的 ， 其 他 都 类 似 。 下 面 是 
一 段 简单 的 Scala 代码 ， 用 于 输出 Hello，World!。 


object HelloWorld { 论 
/* 这 是 我 的 第 一 个 scala 程序 
* 以 下 程序 将 输出 Hello World! SS 
* / 将 - 
def main (args，Rrray [String]) { 
println(" Hello, world!") / 辆 jello World 
} ~ 
下 
接 下 来 使 用 scalac 命令 编译 这 段 人 NM 拘 |! a 
$ scalac HelloWorlg,aca 六 


HelloWorld$ . ass HelloWorld. scal 








.Class 文件 ， 该 文件 可 以 在 JVM 上 运行 。 





$ scala HelloWorld 
Hello, World! 


如 此 ， 便 可 以 在 窗口 中 看 到 “Hello, World!1”。 


val sqlContext= new org. apache. Spark. sql. SQLContext (sc) 
val persons= sqlContext .sql(" SELECT name FROM people WHERE age> = 18 AND age 


< = 29") 

上 述 三 行 代 码 是 Scala 的 语法 ， 都 声明 了 两 个 新 变量 。 与 Java 不 同 的 是 ，Scala 在 声 
明 变 量 时 不 给 定 变量 类 型 ， 该 功能 在 Scala 编程 语言 中 称 为 类 型 推断 ，Scala 会 从 上 下 文 
中 分 析出 变量 类 型 。 只 要 在 Scala 中 定义 新 变量 ， 就 必须 在 变量 名 称 前 加 上 val 或 var。 以 
val 开头 的 变量 是 不 可 变 变 量 ， 即 一 旦 为 不 可 变 变量 赋值 ， 就 不 能 改变 ;而 以 var 开头 的 
变量 则 是 可 变 变 量 。 

Scala 基本 语法 的 要 点 如 下 。 

(1) 区 分 大 小 写 。Scala 是 大 小 写 敏感 的 ， 这 意味 着 标识 Hello 和 hello 在 Scala 中 会 有 
不 同 的 含义 。 
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(2) 类 名 。 所 有 类 名 的 第 一 个 字母 要 大 写 。 如 果 需 要 使 用 几 个 单词 来 构成 一 个 类 的 名 
称 ， 每 个 单词 的 第 一 个 字母 要 大 写 。 

示例 : 

class MyFirstScalaClass 

(3) 方 法 名 。 所 有 方法 名 的 第 一 个 字母 要 小 写 。 如 果 若 干 单词 被 用 于 构成 方法 的 名 
称 ， 则 每 个 单词 的 第 一 个 字母 应 大 写 。 

示例 : 

def myMethodName () 

(4) 程 序 文件 和 名。 程序 文件 名 应 该 与 对 象 名 完全 匹配 。 保 存 文件 时 ， 应 该 保存 它 使 用 
的 对 象 名 (注意 ，Scala 区 分 大 小 写 ) ， 并 追加 “. scala” 为 文件 扩展 名 (如 果 文 件 名 和 对 象 
名 不 匹配 ， 程 序 将 无 法 编译 ) 。 

示例 : 假设 “HelloWorld” 是 对 象 名 ， 那 么 该 文件 应 elloWorld. scala。 


(5) 定 义 主 程序 。 
def main (args，Rrray [String]) SS 


Scala 程序 从 main() 方 法 开始 处 理 ， 这 iene 
spark 时 ， 采 用 与 底层 框架 相同 的 编程 语 


Spark 框架 是 用 Scala 语言 编写 的 ， 
言 有 很 多 优势 : 系统 开 销 小 、 可 用 SP 的 版 本 、 有 助 于 使 用 者 理解 Spark 的 原理 。 




















4.2.2 Spark SQL 


Spark SQL 的 前 身 是 E> wat 解 MapReduce 的 技术 人 员 提 
供 快速 上 手 的 工具 。 二 的 发 展 ，Sha 的 过 多 依赖 不 符合 Spark 的 “One 
Stack to Rule Th 的 既定 方针 ， 有 队 ark 各 个 组 件 的 相互 集成 ， 所 以 Spark 
SQL 项 目 被 

SB 证 -i Shark 的 代码 ， ; Shark 的 一 些 优点 ， 如 内 存 列 存储 CIn- 
Memory Columnar Storage) 和 Hive 兼容 性 等 ， 重 新 开发 了 Spark SQL 代码 。 由 于 摆脱 了 
对 Hive 的 依赖 性 ，Spark SQL 在 数据 兼容 、 性 能 优化 和 组 件 扩展 方面 都 得 到 了 极 大 的 
提升 。 

(1) 数 据 兼容 方面 。 不 但 兼容 Hive， 还 可 以 从 RDD、Parquet 文件 和 JSON 文件 中 获 
取 数 据 ， 未 来 版 本 甚至 可 支持 获取 RDBMS 数据 和 Cassandra 等 NoSQL 数据 。 

(2) 性 能 优化 方面 。 除 了 采取 内 存 列 存储 、 字 节 码 生成 技术 (Bytecode Generation ) 等 
优化 技术 外 ， 还 引进 成 本 模型 (Cost Model) 对 查询 进行 动态 评估 、 获 取 最 佳 物理 计划 等 。 

(3) 组 件 扩展 方面 。 无 论 是 SQL 的 语法 解析 器 、 分 析 器 还 是 优化 器 都 可 以 重新 定义 ， 
并 进行 扩展 。 

Spark SQL 是 基于 Spark 引擎 对 HDFS 上 的 数据 集 或 已 有 的 分 布 式 数据 集 执行 SQL 
查询 的 。 有 了 Spark SQL， 就 能 在 Spark 程序 中 使 用 SQL 语句 操作 数据 。Spark SQL 很 
好 地 混合 了 SQL 查询 与 Spark 程序 。 

Spark SQL 在 Spark 领域 中 非常 流行 。 简 单 回顾 一 下 Shark 的 整个 发 展 历 史 。 对 于 熟 
悉 RDBMS 但 又 不 理解 MapReduce 的 技术 人 员 来 说 ，Hive 提供 了 快速 上 手 的 工具 ， 它 是 




















第 一 个 运行 在 Hadoop 上 SQL 工具 。Hive 基于 MapReduce， 但 是 MapReduce 的 中 间 过 
程 消耗 了 大 量 的 LO， 影响 了 运行 效率 。 为 了 提高 Hadoop 上 SQL 的 效率 ， 陆 续 出 现 一 
些 工 具 ， 其 中 表现 较 突 出 的 是 MapR 的 Drill、Cloudera 的 Impala 和 Shark。 其 中 ，Shark 
是 伯克利 实验 室 Spark 生态 环境 的 组 件 之 一 ， 它 修改 了 内 存 管 理 、 物 理 计 划 和 执行 3 个 模 
块 ， 并 使 之 能 运行 在 Spark 引擎 上 ， 从 而 使 得 SQL 查询 的 速度 提升 10 一 100 倍 。Shark 
依赖 于 Hive， 如 Shark 采用 Hive 的 语法 解析 器 和 查询 优化 器 ， 这 制约 了 Spark 各 个 组 件 
的 相互 集成 ， 所 以 Spark SQL 项 目 被 提出 。2014 年 6 月 1 日 ，Shark 项 目 组 宣布 停止 开 
发 Shark， 将 所 有 资源 放 在 Spark SQL 项 目 上 。Spark SQL 作为 Spark 生态 的 一 员 继续 发 
展 ， 而 不 再 受 限 于 Hive， 只 是 兼容 Hive。Spark SQL 体系 架构 如 图 4.6 所 示 。 









































Meta Store 








:6 Spark SQL 体系 黎 枸 


Spark SQL 性 能 Me 做 了 优化 。 

1) 内存 列 存 全 Ms 的 表 数 据 储 时 采用 的 不 是 原生 态 的 JVM 对 象 存储 
方式 ， 0 该 存 储 广 式 在 宰 都 有 很 大 优势 。 

ee 技术 。 在 数据 库 查 询 的 操作 是 查询 语句 中 的 表达 


式 ， 其 主要 是 由 JVM 的 内 存 模型 引起 的 。 查 询 多 次 涉及 虚 函 数 的 调用 ， 虚 函数 的 调用 会 
打 断 CPU(Central Processing Unit， 中 央 处 理 器 ) 的 正常 流水 线 处 理 ， 降 低 执行 速度 。 而 
Spark SQL 在 执行 物理 计划 时 ， 采 用 特定 的 代码 动态 编译 匹配 的 表达 式 ， 然 后 运行 ， 速 
度 更 快 。 

(3)Scala 代码 优化 。Spark SQL 在 使 用 Scala 编写 代码 时 ， 尽 量 避 免 低 效 和 容易 垃圾 
回收 (Garbage Collection，GC) 的 代码 。 尽 管 增加 了 编写 代码 的 难度 ,但 对 于 用 户 来 说 还 
是 使 用 统一 的 接口 ， 使 用 上 没有 任何 影响 。 





4.2.3 Spark Streaming 





Spark Streaming 基于 Spark 引擎 对 数据 流 进行 不 间断 处 理 。 只 要 有 新 的 数据 出 现 ， 
Spark Streaming 就 能 对 其 进行 准 实时 ( 数 百 毫秒 级 别 的 延 时 ) 转 换 和 处 理 。Spark Streaming 
的 工作 原理 是 在 小 间隔 里 汇集 数据 ,从 而 形成 小 批量 数据 ,然后 在 小 批量 数据 上 运 
行 作业 。 
用 Spark Streaming 编写 程序 与 使 用 Spark 编写 程序 非常 相似 。 在 Spark 程序 中 ， 
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主要 通过 操作 RDD 提供 的 接口 ， 如 map、reduce 和 filter 等 ， 实 现 数 据 的 批 处 理 ， 而 在 
Spark Streaming 中 ， 则 通过 操作 DStream( 表 示 数 据 流 的 RDD 序列 ) 提 供 的 接口 ， 这 些 接 
口 与 RDD 提供 的 接口 类 似 。 

假设 有 一 个 电 商 网 站 购买 了 几 个 搜索 引擎 的 很 多 关键 词 ， 当 用 户 在 各 大 搜索 引擎 上 
搜索 数据 时 ， 搜 索引 擎 会 根据 购买 的 关键 词 导 流 到 电 商 网 站 的 相关 产品 页 面 上 ， 吸 引用 
户 购买 这 些 产 品 。 现 在 需要 分 析 的 是 哪些 搜索 词 带 来 的 订单 比较 多 ， 然 后 根据 分 析 结果 
多 投放 这 些 转化 率 比 较 高 的 关键 词 ， 从 而 为 电 商 网 站 带 来 更 多 的 收益 。 

原先 的 做 法 是 每 天 凌晨 分 析 前 一 天 的 日 志 数据 ， 这 种 方式 的 实时 性 不 高 ， 而 且 由 于 
日 志 量 比较 大 , 单 台 机 器 处 理会 出 现 瓶 颈 。 现 在 选择 使 用 Spark Streaming 十 Kafka 十 
Flume 来 处 理 这 些 日 志 ， 并且 运 行 在 YARN 上 ， 以 应 对 遇 到 的 问题 。Kafka 是 一 种 高 知 
吐 量 的 分 布 式 发 布 订阅 消息 系统 ， er 








Flume 是 Cloudera 提供 的 一 个 高 可 用 的 、 高 可 靠 的 和 分 布 式 的 志 采 集 、 聚 合 和 传 
输 的 系统 ， 支 持 在 日 志 系统 中 定制 各 类 数据 发 送 方 ， 用 于 站 同时 ，Flume 具有 简 
单 处 理 数据 并 写 到 各 种 数据 接收 方 的 能 力 。 

如 图 4.7 所 示 ， 业 务 日 志 分 布 在 各 台 服 务 器 上 业务 量 比较 大 ， 因 此 日 志 都 是 按 
小 时 切 分 的 ， 用 Flume 实时 收集 这 些 日 志 ( Nn 1)， 然 后 发 送 到 Kafka 集群 (图 
4.7 中 步骤 2)。 这 里 之 所 以 不 将 原始 日 志 话 发 送 到 Spark Streaming， 是 因为 即使 Spark 
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日 志 日 志 志 
图 4.7 Spark Streaming 应 用 案例 


日 志 实 时 到 达 Kafka 集群 后 ,再 通过 Spark Streaming 实时 地 从 Kafka 集群 获取 数据 
(图 4.7 中 步骤 3)， 然后 解析 日 志 ， 并 根据 一 定 的 逻辑 过 滤 数 据 ， 分 析 订 单 与 搜索 词 的 关 
联 性 。 使 用 Spark 的 KafkaUtils. createDirectStream API 从 Kafka 中 拉 数 据 ， 代 码 片段 
如 下 : 


val sparkConf= new SparkConf(). setAppName ("OrderSpark") 





val sc= new SparkContext (sparkConf) 


val ssc= new StreamingContext (sc, Seconds (2)) 








val kafkaParams= Map [String, String] (" metadata. broker. list" 一 
brokerAddress," group. id" 一 groupId) 

val messages= KafkaUtils。createDirectStream [String, String, StringDecod- 
er, StringDecoder] (SSC, kafkaParams, Set (topic)) 


上 述 代码 中 返回 的 messages 是 一 个 刚刚 创建 的 DStream， 它 是 对 RDD 的 封装 ， 其 上 
的 很 多 操作 都 类 似 于 RDD。CreateDirectStream 函数 是 从 Spark 1. 3.0 版 本 开始 引入 的 ， 
其 内 部 实现 的 是 调用 Kafka 的 低层 次 API，Spark 本 身 维 护 Kafka 偏 移 量 等 信息 ， 所 以 可 
以 保证 数据 零 丢失 。 

为 了 能 够 在 Spark Streaming 程序 挂 掉 后 能 从 断 点 处 恢复 ， 每 隔 2s 进行 一 次 Check- 
point 操作 ， 这 些 Checkpoint 文件 存储 在 HDFS 上 (图 4.7 中 步骤 4) 的 Checkpoint 目录 
中 。 可 以 在 程序 里 面 设置 Checkpoint 目录 ssc. checkpoint(checkpointDirectory) 。 

如 果 需 要 从 Checkpoint 目录 中 恢复， 可 以 使 用 Streaminl xt 中 的 GetOrCreate 
函数 。 为 了 将 分 析 结果 共享 给 其 他 系统 ， 将 分 析 后 的 数据 | Kafka 集群 (图 4.7 
中 步骤 5)。 最 后 ,单独 启动 一 个 程序 ， 从 Kafka 集群 地 将 分 析 好 的 数据 保存 到 
MySQL 中 ,用 于 持久 化 存储 (图 4.7 中 步骤 6) 。 人 


4.3 We 流 计算 框架 


Storm 是 由 工 witter 公司 开发 的 于 跨国 、 基 于 内 存 进行 运算 的 分 布 式 框架 ， 通 过 APL， 
它 能 够 对 源源 不 断 流 入 的 数据 进行 3SK8Ji 寺 算 。Storm ee gee id 每 
个 节点 每 秒 钟 可 以 处 理 数 百 和 恩 元 组 。 在 Starx 集 ， 在 消息 发 送 节点 Spout 发 
出 消息 后 ,会 同步 发 送 访 个 消息 ID， 然 后 通过 进行 爱 或 计算 判断 所 有 消息 是 否 被 唯一 正 
确 处 理 。 具有 高 可 靠 性 ， 所 以 非常 适合 对 大 数据 进行 实时 
处 理 。 多 < 
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4.3.1 ON 
首先 通过 Storm 和 Hadoop 的 对 比 来 了 解 Storm 中 的 基本 概念 ， 如 表 4. 1 所 示 。 
表 4.1 Storm 和 Hadoop 的 对 比 



























基本 概念 Hadoop Storm 
JobTracker Nimbus 

系统 角色 TaskTracker Supervisor 
Child Worker 

应 用 名 称 Job Topology 

组 件 接口 Mapper/Reducer Spout/Bolt 








下 面具 体 解释 表 4. 1 中 提 到 的 三 个 Storm 系统 角色 概念 。 
(1)Nimbus。 负 责 资源 分 配 和 任务 调度 。 
(2)Supervisor。 负 责 接 受 Nimbus 分 配 的 任务 ,启动 和 停止 属于 自己 管理 的 Worker 








进程 。 

(3) Worker。 运 行 具 体 处 理 组 件 逻 辑 的 进程 。 

数据 流 (Stream) 是 Storm 中 对 数据 进行 的 抽象 ， 是 元 组 序列 。 在 Topology 中 ， 
Spout 是 Stream 的 源头 ， 负 责 为 Topology 从 特定 数据 源 发 射 Stream。Bolt 可 以 接收 多 个 
Stream 作为 输入 ， 进 行 数据 的 加 工 处 理 ; 还 可 以 发 射出 新 的 Stream 给 下 级 Bolt 进行 处 
理 。Topology 中 的 每 一 个 计算 组 件 都 有 一 个 并 行 执行 度 ， 可 以 在 创建 Topology 时 指定 ， 
Storm 会 在 集群 内 分 配 相应 并 行 执行 度 个 数 的 Task 线程 来 同时 执行 这 一 组 件 。 一 个 
Spout 或 Bolt 可 有 多 个 Task 线程 来 执行 组 件 。 

Storm 提供 若干 种 数据 流 分 发 (Stream Grouping) 策 略 来 解决 两 个 组 件 (Spout 和 Bolt) 
之 间 发 送 元 组 的 问题 。 在 Topology 定义 时 ， 需 要 为 每 个 Bolt 指定 接收 什么 样 的 Stream 
作为 输入 。 目 前 Storm 中 提供 以 下 几 种 数据 流 分 发 策略 。 

(1)Shuffle Grouping (随机 数据 流 组 )。 是 最 常用 的 数据 》 Oe ns 
源 组 件 )， 并 且 数 据 源 会 向 随机 选择 的 Bolt 发 送 元 组 ， 个 消费 者 收 到 相近 数量 的 





送 给 Bolt， 保 证 拥有 相同 域 组 合 的 值 集 发 送 给 olt。 
(3)All Grouping (全 部 数据 流 组 ) 。 据 的 实例 复制 一 份 元 组 副本 。 这 种 
分 组 方式 用 于 向 Bolt 发 送信 号 。 例 如 新 缓存 ， 可 以 向 所 有 Bolt 发 送 一 个 刷新 


缓存 信号 。 可 

(4)Global Grouping AR 把 所 有 数据 去 寻 的 元 组 仅 六 单 目标 
例 拥有 最 小 ID 的 任务 。 ， 3 和 Wt 

(5)None rng 组 )。 
(6)Direct cs Me 数据 源 可 以 用 它 决定 


(2)Fields Grouping ( 域 数据 流 组 ) 。 as 
收 数 












哪个 组 件 接收 元 组 。J 例 如 ， 数 据 源 可 根据 首 字 母 决定 由 哪个 Bolt 接收 元 组 。 

(7)Loca uffle Grouping (本 地 或 随机 分 组 )。 当 同 一 个 Worker 进程 中 有 目标 
Bolt 时 ， 将 把 数据 发 送 到 这 些 Bolt 中 ; 否则 ,功能 将 与 随机 分 组 相同 。 该 方法 取决 于 
Topology 的 并 发 度 ， 本 地 或 随机 分 组 可 以 减少 网 络 传输 ， 从 而 提高 Topology 性 能 。 

(8)Partial Key Grouping (部 分 Key 分 组 )。 数 据 流 根据 域 进行 分 组 ， 类似 于 按 字段 
分 组 ,但 是 将 在 两 个 下 游 Bolt 之 间 进 行 负载 均衡 ， 当 资源 发 生 倾 斜 时 能 够 更 有 效率 地 使 
用 资源 。 

Storm 的 适用 场景 有 以 下 三 种 。 

(1) 流 数据 处 理 。Storm 可 以 用 来 处 理 源源 不 断 的 消息 ， 并 将 处 理 后 的 结果 保存 到 数 
据 库 中 。 

(2) 连 续 计算 。Storm 可 以 进行 连续 查询 并 把 结果 即时 反馈 给 客户 ， 如 将 热门 话题 发 
送 到 客户 端 等 。 

(3) 分 布 式 远程 过 程 调用 (Remote Procedure Call，RPC)。 由 于 Storm 的 处 理 组 件 都 
是 分 布 式 的 ， 而 且 处 理 延 迟 的 效率 极 低 ， 因此 Storm 可 以 作为 一 个 通用 的 分 布 式 RPC 框 
架 来 使 用 。 











4.3.2 Spout 和 Bolt 


Spout 和 Bolt 都 是 Storm 的 组 件 。Storm 使 用 元 组 作为 数据 模型 ， 元 组 就 是 一 组 命名 
的 值 ， 元 组 中 的 字段 可 以 是 任何 类 型 的 对 象 。Storm 支持 所 有 的 基本 类 型 ，string 和 byte 
数组 作为 元 组 字段 值 。 如 果 要 使 用 自己 定义 的 类 型 ， 只 需 为 自己 定义 的 类 型 实现 并 注册 
一 个 serializer( 串 行 器 : 把 并 行 数据 变 成 串 行 数据 的 寄存 器 )。 每 个 节点 必须 为 输出 的 元 
组 定义 字段 名 。 

Spout 可 继承 BaseRichSpout， 或 者 继承 实现 IRichSpout 和 IComponent 接口 。Spout 是 
Storm 中 数据 流 的 源头 ， 是 数据 的 发 送 者 。 以 下 几 组 回调 函数 对 应 ISpout 的 生命 周期 。 

(1)open 和 close。 分 别 在 初始 化 完成 后 和 关闭 前 调用 。 在 数据 发 送 之 前 将 所 需 的 上 
下 文 初始 化 工作 放 到 open 中 进行 ， 将 相应 的 清理 工作 放 到 close 中 进行 。 

和 amammawa 


(2)ack 和 fail。 当 数据 在 下 一 跳 处 理 完 成 后 被 调用 ， 分 别 
况 。ack 可 清除 处 理 成 功 的 消息 ， 而 fail 实现 消息 的 重新 发 
活 


(3)deactivate 和 activate。 分 别 在 Spout 被 去 激 活 时 被 调用 。 当 Spout 被 
去 激活 以 后 ， 发 送 消息 的 方法 将 不 会 被 调用 。 








(4)nextTuple 。 是 最 重要 的 一 个 方法 ， 用 于 发 ， 方 法 名 Tuple 即 Storm 中 流动 的 数 


据 。 其 对 应 参数 分 别 为 配置 信息 、 文人 BR 射 数据 的 SpoutOutputCollector。 
Bolt 可 以 实现 实际 的 数据 处 理 逻 MNTBolt 的 UML 如 下 。 
(1)prepare 和 cleanup。 与 IS 的 open 和 close 功能 一 样 ， 这 里 不 再 缆 述 。 
(2)execute。 tg ro 为 数据 的 抽象 。 处 理 完成 
后 ， 既 可 以 发 送 到 下 一 个 Bi 他 可 以 答 出 。 XXX 


在 Stor ar 即 拓扑 CTopology) 结 构 。 该 
Topology 将 会 被 提交 给 集群 ， 由 集群 中 的 主 控 节点 分 发 代码 ,将 任务 分 配给 工作 节点 执 
行 。 一 个 拓扑 包括 Spout 和 Bolt 两 种 角色 ， 其 中 Spout 发 送 消 息 ， 负 责 将 数据 流 以 元 
的 形式 发 送出 去 ; 而 Bolt 则 负责 转换 这 些 数据 流 ， 在 Bolt 中 可 以 完成 计算 和 过 滤 等 操作 ， 
Bolt 自身 也 可 以 随机 将 数据 发 送 给 其 他 Bolt。 因 此 ，Storm 集群 的 输入 流 由 Spout 组 件 管 
理 ，Spout 把 数据 传递 给 Bolt，Bolt 把 数据 保存 到 某 种 存储 器 或 传递 给 其 他 Bolt。 也 就 是 
说 ,一 个 Storm 集群 在 一 连 串 的 Bolt 之 间 转 换 Spout 传送 过 来 的 数据 。 由 Spout 发 射出 
的 tuple 是 不 可 变数 组 ， 对 应 固定 的 键 值 对 。 

Storm 的 拓扑 结构 如 图 4.8 所 示 ，Spout 作为 Storm 中 的 消息 源 ， 用 于 为 Topology 
生产 消息 ， 一般 从 外 部 数据 源 ( 如 Message Queue、RDBMS、NoSQL 和 日 志文 件 ) 不 间断 地 
读 取 数据 并 发 送 Topology 消息 。Bolt 作为 Storm 中 的 消息 处 理 者 ， 为 Topology 处 理 消息 ， 
可 以 执行 过 滤 、 聚 合 和 查询 数据 库 等 操作 ,并 且 可 以 分 级 递 进 处 理 。 最 终 ，Topology 会 
被 提交 到 Storm 集群 中 运行 ， 也 可 以 通过 命令 停止 运行 Topology， 将 Topology 占用 的 计 
算 资源 归还 给 Storm 集群 。 一 个 元 组 从 Spout 发 出 后 ,可 能 会 创建 数 百 个 元 组 ， 可 以 将 
其 称 为 消息 树 ，Spout 节点 称 为 树 根 。Storm 会 跟踪 这 棵 消息 树 的 处 理 情况 ,只 有 这 棵 消 
息 树 中 的 所 有 消息 都 被 处 理 了 ，Storm 才 认 定 Spout 发 出 的 这 条 消息 被 完全 唯一 处 理 。 如 




















果 消 息 树 中 的 某 一 消息 处 理 遇 到 问题 ，Spout 就 会 重新 发 送 消息 。 因 此 ， 开 发 Storm 项 目 
的 第 一 步 就 是 设计 Topology， 确 定好 数据 处 理 逻 辑 。 





§ 
图 4.8 Storm 人- 


本 章 对 大 数据 闹 述 了 处 理 Nba 分 别 Hadoop 处 理 框架 、Spark 
处 理 框架 和 Storm 开源 流 rh apReduce 和 YARN 的 架构 ， 


并 对 分 布 式 协作 服务 Zo pgr 的 逻辑 进行 了 了 Spark 中 用 到 的 Scala 和 Spark 
SQL， 同 时 间 述 了 k Sireaming 的 概念 ， 应 用 实例 ， 介 绍 了 Storm 中 的 相关 概 
念 、 NS y Bolt、Storm 的 

~ 
[oe 关键 术语 


(1)Storm 集群 (2)Hadoop 框架 (3)HDFS (4) MapReduce 
(5)Spark 框架 (6)Storm 开源 流 计 算 框架 

习 题 
1. 选择 题 


(1)HDFS 优化 了 大 文件 的 流 式 读 取 方式 ,把 一 个 大 文件 分 割 成 一 个 或 者 多 个 数据 
块 ， 默认 的 大 小 为 )。 


A. 64MB B. 32MB C. 64KB D. 32KB 
(2)HDFS 中 的 Block 默认 保存 份 数 为 ( Ys 
入: 二 萎 B. 2 份 C. 3 份 D. 不 确定 份 数 


(3)( ) 通 常 与 NameNode 在 一 个 节点 启动 。 








A. SecondaryNameNode B. DataNode 


C. TaskTracker D. JobTracker 
(4)( ) 通 常 是 集群 最 主要 的 性 能 瓶颈 。 

A CPU B. 网 络 C. 磁盘 D. 内 存 
(5)(  ) 不 是 RDD 的 特点 。 

A. 可 分 区 B. 可 序列 化 C. 可 修改 D. 可 持久 化 
(6) 下 面 ( ) 不 是 Spark 的 四 大 组 件 。 

A. Spark Streaming B. MLib C. GraphX D. Spark R 
2. 判断 题 


(1)Hadoop 是 用 Java 语言 编写 的 ， 所 以 MapReduce 只 支持 用 Java 语言 编写 。 


( 
(2)Hadoop 支持 数据 的 随机 写 操 作 。 伦 ( 
(3)BlockSize 是 不 能 被 修改 的 。 ( 
(4) 如 果 NameNode 意外 终止 ， wg 使 集群 继续 工作 。 

( 
(5)Spark Job 默认 的 调度 模式 是 FIFO。 XK ( 
(6)YARN 是 一 种 新 型 的 Hadoop 资源 也 是 一 个 通用 资源 管理 系统 。 ( 
3. 简 答 题 
(1)Hadoop 集群 可 以 在 哪 三 
(2) 单 机 模式 中 有 哪些 需要 
(3) 简 述 ZooKeeper 的 3 
(4)Scala 基本 语法 
(5) 简 述 Storp2? 的 拓扑 结 构 。 


og 4 重要 性 。 









【第 4 章 习题 答案 】 





先 氏 es- 


大 数据 分 析 
bm 


【大 数据 分 析 对 人 们 
阅读 习惯 的 影响 】 




















知识 要 点 掌握 程度 
描述 性 分 析 熟悉 本 六 中 位 数 、 众 数 和 极 差 等 指标 的 特征 
探索 性 分 析 熟悉 lk 案 性 分 析 的 含义 和 特点 
验证 性 分 析 熟悉 Fs 证 性 分 析 的 含义 和 步 又 
回归 分 析 党 











线性 回归 和 归 的 含义 
关联 分 析 儿孙 Apriori 算法 六 rowth 算法 的 步 又 
分 类 朴素 十 和 支持 向 基 机 的 含义 


聚 类 入 = 掌握 人 -medns 狼 兴 和 DBSCAN 算法 的 步骤 
Exeel ZU 熟悉 xg] 涩 据 处 理 的 插件 和 优点 



































A [ 熟悉 的 构成 、 特 点 和 优 缺 

Rapid Me 了 解 RapidMiner 的 含义 和 特点 
KNIME 了 解 KNIME 的 优点 和 功能 
Weka 了 解 Weka 的 优点 和 功能 


数据 分 析 是 大 数据 价值 链 中 最 重要 的 阶段 其 目的 是 挖掘 数据 中 潜在 的 价值 以 提供 
应 的 建议 或 策略 。 分 析 不 同 领域 中 的 数据 集 ， 可 以 使 数据 在 不 同 层面 发 挥 最 大 价值 。 
人 -个 方面 介绍 大 数据 分 析 的 相关 内 容 : 大 数据 分 析 的 类 型 、 方 法 和 工具 。 





5.1 大 数据 分 析 的 类 型 


在 商业 智能 、 科 学 研究 、 互 联网 应 用 和 电子 商务 等 领域 ,数据 增长 束 
度 极 快要 想 分 析 和 利用 好 这 些 数据 ， 必 须 依赖 于 有 效 的 数据 分 析 技 术 。【 视 频 大 数据 
同时 ,为 了 从 数据 中 发 现 知识 ， 帮助 决策 人 作出 有 效 的 决策 ， 需 要 对 数据 。 今 析 ] 
进行 深入 的 分 析 ， 而 非 简 单 地 生成 报表 。 大 数据 分 析 的 类 型 有 描述 性 分 析 、 探 索性 分 析 
和 验证 性 分 析 ， 下 面 进 行 详细 介绍 。 





描述 性 分 析 是 指 通过 图 表 形 式 加 工 处 理 和 显示 收集 的 数据 ， 进 而 综合 概括 和 分 析出 
反映 客观 现象 的 规律 ， 即 描绘 或 总 结 所 采集 到 的 数据 。 常 用 的 描述 数据 的 指标 有 平均 数 、 
中 位 数 、 众 数 、 极 差 、 分 位 距 、 平 均 差 、 标 准 差 和 离散 系数 等 。 


1. 描述 数据 的 集中 趋势 


51) 平均 数 。 概 括 数 据 的 强 有 力 的 指标 。 通 过 消除 极端 数据 的 差异 将 大 量 的 数据 浓缩 
成 一 个 数据 来 概括 ， 可 以 较 好 地 实现 数据 集中 趋势 的 度量 ,但 这 种 过 度 的 浓缩 容易 受 极 
端 值 影 响 。 

(2) 中 位 数 。 按 顺序 排列 的 一 组 数据 中 居于 中 间 位 置 的 数 ， 主 要 用 于 描述 顺序 数据 的 
集中 趋势 ， 也 适用 于 定量 数据 的 集中 趋势 分 析 , 但 并 不 适用 于 稍 张 数据 的 描述 或 分 析 。 
中 位 数 是 一 个 位 置 代表 值 ， 其 特点 是 不 受 极端 值 的 影响 ， 析 收 入 分 配 等 数据 。 

(3) 众 数 。 一 组 数据 中 出 现 次 数 最 多 的 变量 值 ， 主 要 分 类 数据 的 特点 ， 也 可 

大 的 情况 下 才 有 意义 。 其 主 


用 于 顺序 数据 和 定量 数据 的 特征 分 析 。 众 数 一 般 
， 即 可 能 存在 多 个 众 数 或 者 




























| 


要 特点 是 不 受 极端 值 的 影响 ， 但 是 在 一 组 数据 


没有 众 数 。 ~ 
2. 描述 数据 的 离 中 趋势 RS 


(1) 极 差 。 又 称 为 全 距 ， 是 一 名 wa 是 测定 离 中 趋势 的 指标 
能 充 


之 一 。 它 能 说 明 数 据 组 中 各 数 发 大 变动 范围 , 人 是 根据 数据 组 的 两 个 极端 
值 进行 计算 的 ,并 没有 考虑 间 值 的 变动 情况 ， 


分 反映 数据 组 中 各 项 数据 
的 离 中 趋势 ， 只 是 一 个 的 测定 数据 离 中 标 。 在 实际 应 用 中 ,， 极 差 可 用 于 


粗略 检查 产品 质 定性 或 进行 产品 质 是 控 刷 窜 。 

(2) 分 位 距 V 从 TO 
如 ， 四 分 位 曙 个 四 分 位 数 减 去 第 1 个 四 分 位 数 的 差 的 一 半 ， 排 除了 数列 两 端 各 25% 的 
数据 的 影响 ,反映 了 数据 组 中 间 部 分 各 变量 值 的 最 大 值 与 最 小 值 距离 中 位 数 的 平均 离 差 。 

(3) 平 均 差 。 反 映 数据 组 中 各 项 数据 与 算术 平均 数 之 间 的 平均 差异 。 平 均 差 越 大 ， 表 

明 各 项 数据 与 算术 平均 数 的 差异 程度 越 大 ， 则 该 算术 平均 数 的 代表 性 就 越 小 ， 反之 , 平 
均 差 越 小 ， 该 算术 平均 数 的 代表 性 就 越 大 。 当 变量 数列 由 没有 分 组 的 数据 构成 时 ,可 采 
用 平均 差分 析 该 数列 。 
(4) 标 准 差 。 其 本 质 与 平均 差 基 本 相同 ， 只 是 在 数学 处 理 方法 上 与 平均 差 不 同 , 平均 
差 用 取 绝 对 值 的 方法 消除 离 差 的 正 负 号 ,然后 用 算术 平均 的 方法 求 出 平均 离 差 ， 而 标准 
差 用 平方 的 方法 消除 离 差 的 正 负 号 ， 然 后 对 离 差 的 平方 计算 算术 平均 数 ， 最 后 开 方 求 出 
标准 差 ， 既 克服 了 平均 差 消除 正 负 号 带 来 的 整 病 ， 又 增强 了 指标 本 身 的 “灵敏 度 "， 因 此 
标准 差 是 描述 数据 离 中 趋势 的 重要 指标 。 

(5) 离 散 系数 。 比 较 数 据 平均 水 平 不 同 的 两 组 数据 离 中 程度 的 大 小 ， 即 相对 离 中 程 
度 。 与 标准 差 相 比 ， 离 散 系数 的 优势 在 于 不 需要 参照 数据 的 平均 值 。 离 散 系数 是 一 个 无 
量 纲 的 指标 ， 因 此 在 比较 量 纲 不 同 或 均值 不 同 的 两 组 数据 时 ， 应 该 采用 离散 系数 而 非 标 
准 差 作为 参考 指标 。 





















































5.1.2 探索 性 分 析 回 器 加 
探索 性 分 析 在 20 世纪 60 年 代 被 提出 ， 由 美国 著名 统计 学 家 约翰 。 图 基 = 


命名 。 探 索性 分 析 是 指 在 尽量 少 的 先 验 假设 下 对 已 有 的 原始 数据 进行 探索 ， 

通过 作 图 、 制 表 、 方 程 拟 合 和 计算 特征 量 等 手段 探索 数据 的 结构 与 规律 的 【探索 性 因子 
一 种 数据 分 析 技术 。 对 这 些 数据 中 的 信息 没有 足够 的 处 理 经 验 ， 不 知道 该 今 析 法 
用 何 种 传统 统计 方法 进行 分 析 时 ， 探 索性 分 析 就 会 非常 有 效 。 

提出 探索 性 分 析 的 主要 原因 是 在 初步 分 析 数 据 时 ， 往 往 无 法 进行 常规 的 统计 分 析 。 
而 如 果 分 析 者 先 对 数据 进行 探索 性 分 析 ， 辨 析 并 有 序 地 发 掘 出 数据 的 模式 与 特点 ， 就 能 
够 灵活 地 选择 和 调整 合适 的 分 析 模型 ， 并 揭示 出 数据 相对 于 常见 模型 的 偏离 情况 。 在 此 
基础 上 ， 采 用 以 显著 性 检验 和 置信 区 间 估 计 为 主 的 统计 分 析 技术 r 就 可 以 科学 地 评估 所 
观察 到 的 模式 或 效应 的 具体 情况 。 


探索 性 分 析 主 要 有 以 下 三 个 特点 。 NN 
(1) 在 分 析 思 路 上 探索 数据 内 在 规律 ， 不 进行 或 不 人 数据 的 假设 。 传 统 的 统 
计 方 法 通常 是 先 假定 一 个 模型 ， 如 假设 数据 服从 某 看 型 ， 然 后 使 用 适合 此 模型 的 
方法 进行 拟 合 、 分 析 和 预测 。 但 实际 上 ， 多 是 实验 数据 并 不 能 保证 满足 假定 


的 理论 分 布 。 因 此 ， 传 统 方法 的 统计 结果 令 人 满意 ， 而 且 在 使 用 上 有 很 大 的 局 
限 性 。 探 索性 分 析 则 可 以 从 原始 数据 由 党 




















入 探索 数据 的 内 在 规律 ， 而 不 是 从 某 种 假 
定 出 发 ， 套 用 理论 ， 拘 泥 于 模型 的 (器 


(2) 探 索性 分 析 采 用 的 方 洲 隶 ， 并 不 有 了 估计 传统 的 统计 方法 
以 概率 论 为 基础 ， 使 用 eg ep 间 区 间 等 处 理工 具 。 用 探索 性 分 
折 方 法 从 的 方式 冯 方法 的 选 糙 完 祭 从 数据 出 发 ， 灵 活 地 对 待 和 处 理 ， 
什么 方法 可 以 达到 欣 案 和 皮 现 的 目的 就 使 法 。 同 时 ， 探 索性 分 析 更 看 重 方法 的 
稳健 性 ， 而 不 刻 记 所有 滤 概率 意义 上 的 精 

(3 ) 探 索 选用 的 工具 简单 直观 、 /更 易于 普及 。 传统 的 统计 方法 比较 抽象 和 深 
奥 ， 一般 人 难以 掌握 ; 而 探索 性 分 析 强 调 的 则 是 直观 和 数据 可 视 化 ， 注 重 方法 的 多 样 性 
及 灵活 性 ， 使 分 析 者 能 一 目 了 然 地 看 出 数据 中 隐 含 的 有 价值 的 信息 ， 显 示 出 其 遵循 的 规 
律 和 特点 ， 从 而 达到 分 析 的 目的 。 


5.1.3 验证 性 分 析 


验证 性 分 析 是 指 运用 各 种 定性 或 定量 的 分 析 方法 和 理论 ， 对 事物 未 来 出 
发 展 的 趋势 进行 判断 和 推测 ， 并 且 构 建 出 相应 的 模型 ， 然 后 通过 已 有 的 数 
据 验证 所 提出 的 模型 。 例 如 ， 分 析 者 要 研究 顾客 的 忠诚 度 情况 ， 首 先 将 忠 【验证 性 因子 
诚 度 拆 解 成 购买 频率 、 主 观 评估 和 消费 比例 等 指标 来 进行 衡量 ， 然 后 构建 今 析 法 了 
出 忠诚 度 模型 ， 最 后 利用 收集 到 的 数据 检验 模型 的 可 靠 性 。 

验证 性 分 析 主要 有 以 下 五 个 步骤 。 

(1) 构 建 因 子 模型 。 包 括 选 择 因 子 的 个 数 和 载荷 ,载荷 可 以 事先 定 为 0 或 者 其 他 常 
数 等 。 

(2) 收 集 观测 值 。 定 义 了 模型 之 后 ， 根 据 研究 目的 收集 观测 值 。 




















(3) 获 得 相关 系数 矩阵 。 因 为 基于 原始 数据 相关 系数 矩阵 的 分 析 结果 具有 可 比 性 ， 所 
以 在 拟 合 模型 之 前 要 根据 资料 获得 所 需 的 相关 系数 矩阵 。 

04) 根据 数 据 拟 合 模型 ， 选 择 方法 估计 自由 变化 的 因子 载荷 。 在 多 元 正 态 分 布 的 条 件 
下 ， 常 用 的 方法 有 极 大 似 然 估计 和 渐进 分 布 自由 估计 。 

55) 评价 模型 是 否 合理 。 当 因子 模型 能 够 拟 合 数据 时 ， 因 子 载荷 的 选择 要 使 模型 暗 
Re we 
合 优 度 检 验 。 

验证 性 分 析 与 探索 性 分 析 的 不 同 之 处 在 于 ， 探 索性 分 析 致 力 于 找 出 事物 内 在 的 本 质 
结构 ， 即 得 到 影响 观测 变量 的 因子 个 数 及 各 个 因子 和 观测 变量 之 间 的 相关 程度 ; 而 验证 
性 分 析 则 主要 检验 已 知 的 特定 结构 是 否 按 照 预期 的 方式 发 挥 作用 。 如 果 分 析 者 没有 坚实 
的 理论 基础 来 支撑 有 关 观 测 变 量 内 部 结构 的 假定 和 分 析 产 生 关于 内 部 结 
构 的 理论 ， 在 此 基础 上 进行 验证 性 分 析 。 但 这 ake 不 能 重合 ， 否 则 会 














影响 分 析 结 果 的 有 效 性 。 


5.2 大 数据 分 


过 将 大 数据 和 分 析 技 术 相 结合 ， 可 以 出 新 的 见解 。 人 全 全 全 
将 有 助 于 研究 和 分 析 需 求 ， 以 及 目标 、 由 数据 结构 与 数量 来 选择 合 
的 技术 。 ep 分 析 方法 。 


sz D9 
2 ss: | etait 


【回归 分 析 定数 值 。 简 单 的 线性 狼人 洛 技术 就 是 回归 分 析 的 一 个 例子 ,其 结果 
的 示例 J 个 函数 ,可 以 根据 输入 值 确定 输出 值 。 ise id hg 
和 数值 输入 。 回 归 分 析 常 用 的 技术 是 线性 回归 和 逮 辑 回归 。 通 过 回归 分 析 

[以 解决 许多 商业 问题 ， 如 根据 债券 的 面值 、 发 行 方式 、 发 行 数 量 和 发 行 季节 来 预测 赎 
回 率 ; 根据 温度 、 大 气压 力 和 湿度 来 预测 风速 。 
回归 分 析 关 注 的 是 输入 变量 和 结果 之 间 的 关系 ,通过 回归 分 析 可 以 了 解 一 个 目标 变 
量 如 何 随 着 属性 变量 的 变化 而 变化 ， 如 想 要 预测 客户 的 生命 周期 价值 、 了 解 主要 的 影响 
因素 等 。 回 归 分 析 的 结果 可 以 是 连续 的 或 离散 的 ， 如 果 是 离散 的 ， 还 可 以 预测 各 个 离散 
值 产生 的 概率 。 

1. 线性 回归 

线性 回归 是 利用 线性 回归 方程 的 最 小 平方 函数 对 一 个 或 多 个 自 变 量 和 因 变 量 之 间 的 
关系 进行 建 模 的 一 种 回归 分 析 。 该 函数 是 一 个 或 多 个 称 为 回归 系数 的 模型 参数 的 线性 组 
合 。 只 有 一 个 自 变量 的 情况 称 为 简单 回归 ,多 于 一 个 自 变量 的 情况 称 为 多 元 回归 。 线 性 
可 归 适 用 于 处 理 数 值 型 的 连续 数据 。 


大 数据 对 企业 而 言 是 非常 有 价值 的 ， 这 也 是 分 析 大 数据 的 真正 出 发 点 ， 通 
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在 线性 回归 中 ， 使 用 线性 预测 函数 来 对 数据 建 模 ， 并 且 未 知 的 模型 参数 也 是 通过 数 
据 来 估计 的 ， 而 所 构成 的 模型 称 为 线性 回归 模型 。 其 中 ， 最 常用 的 线性 回归 建 模 是 给 定 x 
值 时 ，y 的 条 件 均 值 是 x 的 仿 射 函数 。 线 性 回归 模型 可 以 用 由 一 个 中 位 数 或 一 些 其 他 给 定 
工 的 条 件 下 > 的 条 件 分 布 的 分 位 数 所 构成 的 线性 函数 表示 。 与 其 他 形式 的 回归 分 析 一 样 ， 
线性 回归 也 把 焦点 放 在 给 定 工 值 时 > 的 条 件 概 率 分 布 上 ， 而 不 是 放 在 xz 和 y 的 联合 概率 
分 布 上 。 

线性 回归 模型 经 常 采 用 最 小 二 乘法 来 拟 合 ， 也 可 以 用 其 他 方法 。 例 如 ， 用 最 小 化 
“ 拟 合 缺陷 ”的 最 小 绝对 误差 回归 ,或 者 最 小 化 最 小 二 乘 损失 函数 惩罚 的 桥 回归 。 因 为 最 
小 二 乘法 也 可 以 用 来 拟 合 非 线性 模型 ， 所 以 尽管 最 小 二 乘法 和 线性 模型 有 关联 ， 但 两 者 
之 间 不 能 画 等 号 。 

由 于 线性 依赖 于 其 未 知 参数 的 模型 比 非 线 性 依赖 于 其 位 
而 且 所 要 估计 的 统计 特性 也 更 容易 确定 ， 因 此 线性 回归 在 宽 际 
是 线性 回归 存在 一 些 缺陷 ， 如 当 数 据 呈 现 非 线性 关系 时 ， 


适合 ”的 直线 。 SS 
2. 逻辑 回归 


逻辑 回归 是 一 种 广义 线性 回归 ， 光量 日 有 很 多 相同 之 处 ， 如 模型 形式 基本 
以 是 多 分 类 的 ,但 是 二 分 类 的 因 变量 更 


相同 。 逻 辑 回归 的 因 变 量 可 以 是 二 分 

常用 ， 也 更 容易 解释 。 Cm 果 回 归 的 结果 输出 是 一 个 连续 值 ， 而 值 的 范 

围 是 无 法 限定 的 ， do 和 者 判断 的 结果 值 ， 从 而 进 
| 


































的 模型 更 容易 拟 合 ， 
了 广泛 的 运用 。 但 
回归 将 只 能 得 到 一 条 “最 













行 分 类 。 所 以 ， 从 本 抽 上 讲 A rose 而 被 用 于 分 类 问 
题 上 。 

馆 辑 回归 的 适 册 短 件 如 下 。 

(1) 因 变量 洲 辽 这 生 概 率 ， 并 且 该 概率 是 数值 型 变量 。 但 
逻辑 回归 不 i 放 析 重复 计数 现象 指标 / 


(2) 残 差 和 因 变 量 都 要 服从 二 项 分 布 。 因 为 二 项 分 布 对 应 的 是 分 类 变量 ， 而 不 是 正 态 
分 布 ， 因 此 不 用 最 小 二 乘法 ， 而 用 最 大 似 然 法 来 解决 方程 估计 和 检验 问题 。 

(3) 自 变量 和 对 应 的 发 生 概率 是 线性 关系 。 

(4) 各 观测 对 象 之 间 相互 独立 。 

他 辑 回归 的 实质 是 发 生 的 概率 除 以 没有 发 生 的 概率 再 取 对 数 , 通 过 该 变换 可 以 使 因 
变量 与 自 变量 之 间 呈 线性 关系 ， 从 而 解决 了 因 变 量 与 自 变量 之 间 的 曲线 关系 问题 。 因 此 ， 
逻辑 回归 从 根本 上 解决 了 因 变 量 不 是 连续 变量 时 的 分 析 问 题 。 由 于 有 很 多 实际 问题 与 多 
辑 模型 吻合 ， 如 学 生 考试 是 否 通过 与 复习 时 间 的 关系 ,因此 逻辑 回归 得 到 了 广泛 的 应 用 。 


5.2.2 关联 分 析 


关联 规则 是 日 常生 活 中 认识 客观 事物 形成 的 一 种 认 知 模式 ， 如 通过 观察 哪些 商品 经 常 被 
购买 来 了 解 用户 的 购买 行为 ， 从 而 帮助 商家 获得 僵 利 。 从 大 规模 数据 集中 寻找 物品 间 的 隐 含 
关系 称 为 关联 分 析 。 以 上 述 的 商品 推荐 为 例 ， 其 主要 问题 在 于 寻找 物品 的 不 同 组 合 是 一 项 十 
分 耗 时 的 任务 ， 所 需 的 计算 代价 较 高 ， 盲 目地 搜索 并 不 能 解决 问题 ， 需 要 采用 有 效 的 方法 ， 
































在 合理 的 时 间 内 找到 频繁 项 集 ， 而 关联 分 析 算 法 则 可 以 很 好 地 解决 该 问题 。 

1. 有 趣 关 系 

关系 是 指 人 与 人 之 间 、 人 与 事物 之 间 、 事 物 与 事物 之 间 的 相互 联系 。 关 联 分 析 是 在 
大 数据 中 寻找 有 趣 关系 的 方法 。 其 中 有 趣 关 系 分 为 两 种 频繁 项 集 和 关联 规则 。 频 繁 项 
集 是 经 常 出 现在 一 起 的 物品 的 集合 ; 关联 规则 是 暗示 两 种 物品 之 间 可 能 存在 的 关联 性 很 
强 的 关系 。 下 面 举 例 说 明 两 者 的 概念 ， 表 5. 1 为 某 个 超市 的 购物 记录 。 

表 5.1 某 个 超市 的 购物 记录 
交易 号 码 | 商品 
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| 
1 | 葛 音 、 尿 砷 和 啤酒 甜菜 
| i A 





在 找 出 频繁 项 集 和 关联 规则 之 前 ， ie 下 两 个 概念 。 
(1) 支 持 度 。 数 据 集 包 含 该 项 集 的 记 2 比例 。 在 5 条 记录 中 ，{ 豆 奶 } 0 
为 4/5，{ 豆 奶 ， 尿布) 的 支持 度 为 3 度 是 针对 项 集 而 言 的 ， 因 此 可 以 定义 一 个 最 


小 支持 度 ， 将 满足 最 小 值 尺 度 的 频繁 项 集 。 i 
(2) 置 信 度 。 针 对 如 { {啤酒 } 的 关 定义 。 规 则 { a { 啤 


酒 } 的 置信 度 被 定义 为 de, ( 慰 而 妆 
酒 } 的 支持 度 为 3/ ne De 
ela a 人 wane J Sy 

时 指 经 常 出 现在 一 起 的 牧 各 的 集合 ， 因 此 当 规定 最 小 支持 度 为 50% 时 ， 
:频繁 项 集 的 一 个 数据 集 ， 而 从 该 数据 集中 可 以 找到 的 关联 规则 有 { 尿 
布 ) -> (啤酒) ， 即 如 果 顾客 购买 了 尿布 ， 那 么 他 很 可 能 会 购买 啤酒 。 

2. Apriori 算法 

发 现 元 素 之 间 的 不 同 组 合 是 一 项 十 分 耗 时 的 任务 ， 不 可 各 免 地 需要 大 量 计 算 资源 ， 
这 就 需要 更 有 效 的 方法 在 合理 的 时 间 范围 内 找到 频繁 项 集 ， 而 Apriori 算法 则 是 发 现 频繁 
项 集 的 一 种 常用 方法 。 

Apriori 算法 的 输入 参数 有 最 小 支持 度 和 数据 集 。Apriori 算法 的 实质 是 使 用 候选 项 集 
查找 频繁 项 集 ， 采 用 逐 层 搜索 的 迭代 方法 ， 即 大 项 集 用 于 搜索 (十 1)- 项 集 。 其 主要 思路 
是 首先 找 出 频繁 -项 集 的 集合 L ， 然 后 L, 被 用 于 查找 频繁 2- 项 集 的 集合 L,， 而 已 被 用 
于 查找 L,， 直 到 不 能 找到 频繁 -项 集 ， 其 中 查找 每 个 集合 时 都 需要 扫描 一 次 数据 库 。 

Apriori 算法 的 核心 性 质 是 频繁 项 集 的 所 有 非 空子 集 也 必须 都 是 频繁 的 。 例 如 ， 假 定 
{evd we) 是 频繁 项 集 ， 因 为 任何 包含 项 集 {c,d,e) 的 事务 一 定 包 含 子 集 {c,d}、{eve)、 
te (fcej td 和 {ej， 所 以 如 果 {cod,e) 是 频繁 的 ， 那么 它 的 所 有 子 集 也 一 定 是 频 
繁 的 。 该 性 质 属于 一 种 特殊 的 分 类 ， 称 为 反 单调 ， 即 如 果 一 个 集合 不 能 通过 测试 ， 则 它 
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的 所 有 超 集 也 都 不 能 通过 相同 的 测试 。 例 如 ,项 集 {a,5b) 是 非 频 繁 的 ， 则 其 所 有 超 集 也 
一 定 是 非 频 繁 的 ， 即 一 旦 发 现 {a,5b) 是 非 频繁 的 ， 则 整个 包含 {a,5) 超 集 的 子 图 可 以 被 
立即 剪 枝 。 这 种 基于 支持 度 度量 修剪 指数 搜索 空间 的 策略 称 为 基于 支持 度 的 剪 棱 。 该 剪 
枝 策略 依赖 于 支持 度 度量 的 一 个 关键 性 质 一 一 一 个 项 集 的 支持 度 绝 不 会 超过 其 子 集 的 支 
持 度 ， 因 此 也 称 为 支持 度 度量 的 反 单 调 性 。 

Apriori 算法 的 关键 是 通过 世 -查找 L,， 具 体 过 程 如 下 。 

(1) 连 接 。L -1 与 自己 连接 产生 候选 -项 集 的 集合 C;。L -1 中 某 个 元 素 与 其 中 另 一 个 
元 素 可 以 执行 连接 操作 的 前 提 是 它们 中 有 (k 一 2) 个 项 是 相同 的 ， 即 只 有 一 个 项 是 不 同 的 。 
例如 ， 项 集 {I ,I) 与 {1,1;) 连接 之 后 产生 的 项 集 是 {I 了,T,1;)}， 而 {1,1} 与 
{1; ,1,) 则 不 能 进行 连接 操作 。 

(2) 前 枝 。 因 为 候选 项 集 Ci 的 元 素 可 以 是 频繁 的 ， 也 可 以 是 非 
繁 k- 项 集 都 包含 在 Ci 中 ， 所 以 Ci 是 工 ,的 一 个 父 集 。 扫 描 数 
的 计数 ， 从 而 确定 L:， 根 据 定 义 ， 计 数值 不 小 于 最 小 支 二 
的 ， 从 而 得 到 已 。 然 而 ， 当 Ci 很 大 时 所 涉及 的 计算 
其 中 肯定 不 是 频繁 项 集 的 元 素 ， 可 以 利用 Apriori 
集 都 不 可 能 是 频繁 人 -项 集 的 子 集 。 pn 


已 中 ， 则 该 候选 项 集 也 不 可 能 是 频繁 的 
CRS 


下 面 通过 举例 说 明 Apriori NA ， 如 图 5. 1 净 、 
CI 



































i 繁 的 ， 并 且 所 有 的 频 
证 Ci 中 每 个 候选 项 集 
的 所 有 候选 集 都 是 频繁 
， 因 此 为 了 压缩 C， 删 除 
E 质 ， 即 任何 非 频 繁 的 (4 一 1)- 项 
个 候选 -项 集 的 (k 一 1)- 子 集 不 在 
以 从 Ci 中 删除 。 这 种 子 集 测试 可 以 使 
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图 5.1 Apriori 算法 的 过 程 


确定 频繁 项 集 的 过 程 如 下 。 
(1) 在 数据 库 中 进行 第 1 次 扫描 剪 枝 ， 删 除 小 于 阔 值 “次 数 ” 的 项 集 ， 得 到 工 , 。 
(2) 对 工 ,进行 连接 操作 ,得 到 候选 项 集 C: 。 








(3) 对 C; 进 行 第 2 次 扫描 剪 枝 ， 删 除 小 于 阔 值 次 数 的 项 集 ， 得 到 L, 。 

(4) 对 工 :进行 连接 操作 ， 得 到 候选 项 集 C; 。 

(5) 对 C; 进 行 第 3 次 扫描 剪 枝 ， 得 到 频繁 项 集 (B,C,E}， 即 为 所 需 的 结果 。 

Apriori 算法 从 单元 素 项 集 开 始 ， 通 过 组 合 满足 最 小 支持 度 要 求 的 项 集 来 形成 更 大 的 
集合 ， 从 而 找到 所 有 的 频繁 项 集 。 但 是 每 次 增 大 频繁 项 集 ，Apriori 算法 都 会 重新 扫描 数 
据 库 ， 而 当 数 据 库 的 数据 量 很 大 时 ， 就 会 显著 降低 查找 频繁 项 集 的 速度 。 因 此 ， 下 面 将 
介绍 FP-Growth 算法 ， 该 算法 只 需要 对 数据 库 进 行 2 次 扫描 ,就 能 够 显著 加 快 查找 频繁 
项 集 的 速度 。 

3. FP-Growth 算法 


FP-Growth 算法 是 基于 Apriori 算法 构建 的 ， 但 由 于 采用 高 级 的 数据 结构 ， 因 此 减少 
了 扫描 次 数 ， 即 只 需 对 数据 库 进行 2 次 扫描 ， 而 Apriori 算法 会 对 每 众 潜 在 的 频繁 项 集 扫描 
数据 集 ， 从 而 判定 给 定 模式 是 否 频繁 ， 因 此 FP-Growth 算法 移 Apriori 算法 快 。 查 找 
完 所 有 的 频繁 项 集 之 后 ，FP-Growth 算法 产生 关 颖 规则 的 丰富 可 Apriori 算法 是 相同 的 。 

FP-Growth 算法 是 由 韩 嘉 炜 等 提出 的 关联 分 板 贫 转让 将 树 状 结构 引入 算法 ， 采 取 分 
治 策略 ， 即 将 提供 频繁 项 集 的 数据 库 压缩 到 一 村 站 篇 模式 树 ， 但 仍 保留 项 集 的 关联 信息 。 
FP-Growth 算法 的 过 程 如 下 。 So 

(1) 先 扫描 一 次 数据 集 ， 得 到 单元 义 最 小 支持 度 ， 并 且 删除 小 于 最 小 支持 
度 的 项 集 ; eh : 且 根 据 元 素 出 现 次 数 重新 调整 数据 库 中 的 
























记录 。 

(2) 第 二 次 扫描 ， 按 照 的 顺序 (降序 ) 创 

(3) 可 以 按照 从 下 到 ea 
小 于 最 小 支持 度 的 范 总 。 本 闫 多 呈 允 有 路 
和 人 全 和 则 给 

下 面 通 总 涪 明 FP-Growth 算法 日 
的 过 程 如 下 。 

(1) 扫 描 数 据 库 ， 对 每 个 元 素 进行 计数 ， 定 义 最 小 支持 度 为 20%， 删 除 小 于 最 小 支持 
度 的 项 集 ， 并 且 按 照 降序 重新 排列 元 素 ， 然 后 按照 元 素 出 现 次 数 重新 调整 数据 库 中 的 记 
录 ， 见 表 5. 3。 


NA 尖 天 和 频繁 模式 树 。 

颖 式 基 ， 递 归 调 用 树 状 结构 ， 删 除 
4 的 树 状 结构 ， 则 直接 列举 所 有 组 合 ; 如 
引用 衬 状 结构 ， 直 到 形成 单一 路 径 。 

程 。 数 据 库 记 录 见 表 5.2， 则 确定 频繁 项 集 
































表 5.2 数据 库 记录 表 5.3 重新 调整 后 的 数据 库 记 录 
编 号 项 集 编 号 项 集 
1 六 1 Tl 
2 Bs 2 Ll 
3 Els 3 ak 
4 Te 4 Ta 
5 l,l 5 Ti,ls 
6 i 6 Ea 
汪 Li,Ts 人 Ti,Ts 
8 Ti,l,1s,l. 8 LT ,Ts ,1 
9 I ,1;,1 9 TT ,Ts 

















52) 再 次 扫描 数据 库 ， 创 建 项 头 表 和 频繁 模式 树 ， 如 图 5. 2 所 示 。 















图 5.2 项 头 表 和 频繁 模式 树 < 
ro 结构 ,删除 小 于 最 小 支持 
度 的 节点 ， 从 而 找到 频繁 项 集 。 例 如 ， 顺 着 无 的 出 所 有 包含 1; 的 前 缀 路径， 这 
< 到 { 有 :1} 之 ， 删除 小 于 支持 


些 前 级 路 径 就 是 天 的 条 件 模式 基 ， 即 二 {1,3: 
TT re TA 


了 ,1; :2)}。 同 理 ，1, 的 频繁 项 集 为 {{ 小 ; I 的 频繁 项 集 为 {{ I ,1:4}、{ 了 ,1;:4)、 
{1 , 卫 ,J3:2)}); 了 工 的 频繁 项 集 为 ND 


FP-Growth 算法 作为 一 种 从 中 拓 和 相交， 季 用 Apriori 和 的 
思想 ， 且 只 对 数据 集 扫描 2 了 et 数 进行 计数 ， 而 第 2 次 扫描 


时 只 考虑 那些 频繁 元 素 
关联 分 析 是 析 ee rt 进行 风 政 所 站 理由 所 有 





频繁 项 集 的 癌 基于 关系 型 数据 计 方 法 进行 分 析 。 如 果 数 据 规模 巨大 ， 则 
可 以 用 分 布 式 天 数据 库 或 者 抽样 数据 进行 分 析 。 关 联 分 析 在 农业 、 军 事 、 医 学 等 领 
域 有 着 广泛 的 应 用 ,是 帮助 人 们 认识 事物 之 间 关 联 关系 的 重要 手段 。 


5.2.3 分 类 


分 类 作为 数据 分 析 中 的 重要 分 支 ， 在 各 方面 都 有 着 广泛 的 应 用 ， 如 客户 
分 析 、 垃 圾 邮件 过 滤 、 医 学 疾病 判别 等 。 分 类 问题 可 以 分 为 两 种 ， 即 归 类 和 
预测 。 归 类 是 指 对 离散 数据 的 分 类 ， 如 根据 一 个 人 的 生活 习惯 判断 出 其 性 别 ; 【机 器 学 习 的 
预测 是 指 对 连续 数据 的 分 类 ， 如 预测 第 二 天 10: 00 的 天 气 湿度 情况 。 TR 

分 类 的 主要 任务 是 预测 目标 所 属 的 类 别 。 与 聚 类 不 同 的 是 ， 分 类 中 的 类 别 是 事先 定 
义 好 的 。 通 常数 据 分 类 包括 两 个 步 又， @ 构 造 模型 ， 利 用 训练 数据 集训 练 分 类 器 ， 回 利 
用 构建 好 的 分 类 器 对 测试 数据 进行 分 类 。 下 面 介绍 三 种 常见 的 分 类 方法 。 

1. 朴素 贝 叶 其 


在 众多 分 类 模型 中 ， 应 用 较为 广泛 的 两 种 是 朴素 贝 叶 斯 模型 和 决策 树 模型 。 与 决策 
树 模型 相 比 ， 朴 素 贝 叶 斯 模型 发 源 于 古典 数学 理论 ， 有 着 坚实 的 数学 基础 和 稳定 的 分 类 



























效率 。 同 时 ， 朴 素 贝 叶 斯 模型 所 需 估 计 的 参数 很 少 ， 对 缺失 数据 不 太 敏 感 ， 算 法 也 比较 
简单 。 

贝 叶 斯 分 类 是 一 类 分 类 算法 的 总 称 ， 这 类 算法 均 以 贝 叶 斯 定理 为 基础 ， 故 统称 为 由 
叶 斯 分 类 。 而 朴素 贝 叶 斯 分 类 是 贝 叶 斯 分 类 中 最 简单 也 是 最 常见 的 一 种 分 类 方法 。 在 朴 
素 贝 叶 斯 模型 中 ， 通 常 输入 的 变量 都 是 离散 型 的 ， 也 有 一 些 改 进 的 算法 可 以 处 理 连 续 型 
变量 。 算 法 的 输入 是 概率 的 打分 ， 通 常 是 0 一 1， 可 以 根据 概率 最 高 的 类 来 进行 预测 。 根 
据 概 率 模 型 的 特征 ， 朴 素 贝 叶 斯 能 够 在 有 监督 的 环境 下 有 效 地 进行 训练 。 贝 叶 斯 理论 被 
广泛 应 用 于 文本 分 类 中 ， 如 可 以 进行 网 页 内 容 的 主题 分 类 、 垃 圾 邮件 的 识别 等 。 

理论 上 ， 朴 素 贝 叶 斯 模型 与 其 他 分 类 方法 相 比 具有 最 小 的 误差 率 ， 但 实际 上 并 非 总 
是 如 此 ， 因 为 朴素 贝 叶 斯 模型 假设 属性 之 间 相 互 独立 ， 而 该 假设 在 实际 应 用 中 往往 不 成 
立 ， 从 而 影响 了 朴素 贝 叶 斯 模型 的 正确 分 类 。 从 












2. 决策 树 

决策 树 是 一 种 常见 且 灵 活 的 开发 数据 挖掘 应 用 的 方 amsn. 其 中 ， 
分 类 树 是 将 要 预测 的 数据 划分 到 同 质 的 组 中 ， 通 一 分 变量 或 多 分 变量 的 分 类 ， 
回归 树 是 回归 的 变种 ， 通 常 每 个 节点 返回 的 是 的 平均 值 ， 常 应 用 于 连续 型 数据 
的 分 类 ， 如 账户 支出 或 个 人 收入 。 

决策 树 的 输入 值 可 以 是 连续 的 也 可 尼 ， 输 出 的 是 用 来 描述 决策 流程 的 树 状 模型 
决策 树 的 叶子 节点 返回 的 是 类 标签 re I 概率 分 数 。 理 论 上 ， 决 策 树 可 以 被 转换 成 类 似 


关联 规则 中 的 规则 。 图 ~ 个 示例 一 一 是 否 a 


SE 


是 否 


图 5.3 是 否 打 网 球 与 天 气 情况 的 关系 决策 树 








决策 树 算法 有 很 多 变种 ， 如 ID3、C4.5、C5.0 和 CART 等 , 但 它们 的 思想 都 是 类 似 
的 。 决 策 树 的 思想 如 下 。 
(1) 算 法 。 
GenerateDecisionTree (D, attributeList) 
上 述 代码 的 含义 为 根据 训练 数据 记录 D 生成 一 棵 决策 树 。 
(2) 输 入 。 
输入 为 数据 记录 D， 包含 类 标签 的 训练 数据 集 ; 属性 列表 attributeList， 候选 属性 











集 ， 在 内 部 节点 中 作 判 断 的 属性 ; 属性 选择 方法 AttributeSelectionMethod()， 选 择 最 佳 

(3) 过 程 。 

加 构造 一 个 节点 N。 

@ 如 果 数 据 记 录 D 中 的 所 有 记录 的 类 标签 都 相同 ( 记 为 C 类 ) ， 则 将 节点 N 作为 叶子 
节点 并 标记 为 C， 返 回 节点 N。 

@ 如 果 属 性 列表 为 空 ， 则 将 节点 N 作为 叶子 节点 并 标记 为 D 中 类 标签 最 多 的 类 ， 返 
回 节点 N。 

@ 调用 AttributeSelectionMethod(D,attributeList) ， 选 择 最 佳 分 型 准则 splitCriterion 。 

加 将 节点 N 标记 为 最 佳 分 裂 准 则 splitCriterion 。 

@ 如 果 分 裂 属性 取 值 是 离散 的 ， “从 则 从 属性 列表 中 减 





去 分 裂 属 性 ， 即 


attributeLsit = attributeLsit aie 
@ 对 分 裂 属性 的 每 一 个 取 值 j)， 记 D 中 满足 7 的 8 合 为 D;; 如 果 也 为 空 ， 则 新 
建 一 个 叶子 节点 下， 标记 为 D 中 类 标签 最 多 的 节点 下 挂 在 N 下 。 
@ 和 否则， 递归 调用 “3 本 ist) ， 得 到 子 树 节点 Ni ， 将 


Ni 挂 在 N 下 。 
O 返回 节点 N。 ee” 
(4) 输 出 > 


输出 为 一 -要 决策 树 ， 












决策 树 的 优点 ， 实现 ,不 需要 全 期 锋 学 握 很 多 背景 知识 ， 只 需 能 够 理 
a 5 的 从 备 往往 是 简单 或 者 不 必要 的 ， 而 
同时 外 下 生 和 常规 型 属性 六 在 袖 对 短 的 时 间 内 能 够 对 大 型 数据 源 作出 可 
ON 膝 评 测 模型 ， 可 以 测定 模型 置信 度 ， 如 果 给 
定 一 个 观察 的 檬 呵 ， 那 么 根据 所 产生 的 决策 树 可 以 很 容易 地 推出 相应 的 逻辑 表达 式 。 


虽然 决策 树 有 诸多 优点 ， 但 是 也 存在 不 足 之 处 : @ 比较 难 预 测 连 续 性 的 字段 ， 四 需 
要 对 有 时 间 顺 序 的 数据 进行 很 多 预 处 理 的 工作 ，@ 当 类 别 太 多 时 ,错误 的 增加 速度 可 能 
会 比较 快 ， 轩 一 般 的 算法 在 进行 分 类 时 ， 只 根据 一 个 字段 来 分 类 。 

3. 支持 向 量 机 加 加 

支持 向 量 机 (Support Vector Machine, SVM) 是 一 种 监督 学 习 (Super- 
vised Learning) 方 法 ， 通 常用 来 进行 模式 识别 、 分 类 及 回归 分 析 。SVM 的 
主要 思想 可 以 概括 为 两 点 ， 外 针对 线性 可 分 的 情况 进行 分 析 ， 而 对 于 线性 【地 加 分 析 和 
不 可 分 的 情况 ， 则 通过 使 用 非 线性 映射 算法 将 低 维 输入 空间 线性 不 可 分 的 SVM 的 比较 
样本 转化 为 高 维特 征 空间 使 其 线性 可 分 ， 从 而 使 得 高 维特 征 空间 采用 线性 算法 对 样本 的 
非 线性 特征 进行 线性 分 析 成 为 可 能 ;四 基于 结构 风险 最 小 化 理论 ， 在 特征 空间 中 构建 最 
优 超 平面 ， 使 分 类 器 得 到 全 局 最 优化 ,并 且 以 某 个 概率 让 整个 样本 空间 的 期 望 满足 一 定 
的 上 界 值 。 

SVM 方法 通过 一 个 非 线性 映射 p， 把 样本 空间 映射 到 一 个 高 维 乃 至 无 穷 维 的 特征 空 




















间 中 ， 使 在 原来 的 样本 空间 中 非 线性 可 分 的 问题 转化 为 在 特征 空间 中 线性 可 分 的 问题 ， 
即 升 维和 线性 化 。 升 维 就 是 把 样本 向 高 维 空间 做 映射 ， 一 般 情 况 下 会 增加 计算 的 复杂 性 
甚至 会 引起 “ 维 数 灾 难 *， 因 此 并 不 常用 。 但 是 在 解决 分 类 、 回 归 等 问题 时 ， 很 可 能 在 低 
维 样本 空间 无 法 线性 处 理 的 样本 集 ， 在 高 维特 征 空间 中 却 可 以 通过 一 个 线性 超 平面 实现 
线性 划分 (或 回归 )。 一 般 的 升 维 操作 都 会 导致 计算 复杂 化 ， 而 SVM 则 巧妙 地 解决 了 这 个 
难题 ， 应 用 核 函 数 的 展开 定理 ,就 不 需要 知道 非 线 性 映射 的 显 式 表达 式 。 由 于 是 在 高 维 
特征 空间 中 建立 线性 学 习 分 类 器 ， 因 此 与 线性 模型 相 比 ， 不 但 几乎 不 增加 计算 的 复杂 性 ， 
而 且 在 某 种 程度 上 避免 了 “ 维 数 灾难 ”。 

SVM 的 应 用 十 分 广泛 ， 如 可 以 用 于 文本 、 超 文本 和 图 像 的 分 类 ， 以 及 识别 手写 字符 
等 。 虽 然 SVM 有 着 避 开 高 维 空间 的 复杂 性 而 直接 求解 相应 的 决策 问题 及 具有 较 好 的 泛 化 
推广 能 力 的 优点 , 但 是 存在 以 下 缺点 。 


(1) 需 要 对 输入 的 数据 进行 全 面 标注 从 
(2) 只 适用 于 两 个 类 别 的 分 类 任务 ， ma 化 简 为 二 分 类 问题 的 
(3) 难 以 解释 求解 模型 的 参数 。 < 


5.2.4 聚 类 


聚 类 是 一 种 无 监督 学 习 (Unsuperw 
况 下 ,根据 信息 相似 度 原则 进行 信息 集 当 。 聚 类 的 目的 数据 分 类 到 不 同 簇 中 ,并 使 
得 禾 内 的 相似 度 较 高 ， 而 能 间 交 低 。 Se 

使 用 的 聚 类 方法 不 同 ， 和 su al 究 者 对 同一 组 数据 进行 聚 类 
分 析 ， 所 得 到 的 聚 类 必 相 同 。 ee 独立 的 工具 获得 数据 的 分 布 状况 ， 


观察 每 一 簇 数据 的 叶 特 定 的 驴 进 ee 
Te 人 条 类 方法 ， 
1. k-means 算法 


k-means 算法 是 一 种 基于 样本 间 相 似 性 度量 的 聚 类 方法 ， 属 于 无 监督 学 习 方法 。 此 算 
法 以 为 参数 ,把 n 个 对 象 分 为 k 个 位， 以 使 复 内 的 相似 度 较 高 ， 而 得 间 的 相似 度 较 低 。 
相似 度 的 计算 是 根据 一 个 簇 中 对 象 的 平均 值 ( 即 簇 的 质心 ) 来 进行 的 。 

k-means 算法 的 思想 : 首先 随机 选择 & 个 对 象 ， 每 个 对 象 代表 一 个 簇 的 质心 。 对 于 其 
余 的 每 一 个 对 象 ， 根 据 该 对 象 与 各 簇 质心 之 间 的 距离 ,将 其 分 配 到 与 之 最 相似 的 簇 中 。 
然后 ， 计 算 每 个 簇 的 新 质心 。 重 复 上 述 过 程 ， 直 到 簇 不 发 生变 化 或 达到 最 大 迭代 次 数 为 
止 。 k-means 算法 示例 如 图 5. 4 所 示 。 

k-means 算法 的 优点 是 易于 实现 ,但 存在 三 个 缺点 ， 四 需要 预先 给 定 上 值 ， 很 多 情况 
下 估计 值 是 非常 困难 的 ， 如 要 计算 全 部 微 信用 户 的 交往 圈 ， 则 无 法 用 k-means 算法 进行 
分 析 。 对 于 可 以 确定 & 值 不 会 太 大 但 不 明确 & 值 的 情况 ,可 以 进行 迭代 运算 ， 找 出 损失 函 
数 最 小 时 所 对 应 的 人 值 ， 该 值 往往 能 较 好 地 描述 簇 的 数量 。@k-means 算法 不 能 处 理 非 球 
形 、 不 同 尺寸 或 不 同 密度 的 徐 。@ 可 能 收敛 于 局 部 最 小 值 ， 而 且 当 数据 规模 较 大 时 收敛 
速度 慢 。 















ee 即 在 预先 不 知道 分 类 标签 的 情 
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2. DBSCAN 算法 Wt 

DBSCAN 算 1 前 Np 
本 集 ， 也 可 以 适 样本 集 。 Dnscpeg 一 般 假定 类 别 可 以 通过 样本 分 布 的 紧密 
程度 决定 ， 同 的 样本 之 间 是 紧密 相 的 ， 即 在 该 类 别 任意 样本 周围 不 远 处 一 定 有 
同类 别 的 样本 大寿 。 通 过 将 紧密 相连 的 样本 划 为 一 类 ,可 以 得 到 一 个 聚 类 类 别 。 通 过 将 
所 有 各 组 紧密 相连 的 样本 划分 为 不 同 的 类 别 ， 则 可 得 到 最 终 的 所 有 聚 类 类 别 结 

假设 样本 集 是 D==(z ,zx;,…,z,,)， 则 DBSCAN 算法 中 涉及 的 概念 定义 如 下 。 

(1)e- 邻 域 。 对 于 zx;E D， 其 e- 邻 域 包 含 样本 集 DD 中 与 zx; 的 距离 不 大 于 e 的 子 样本 集 ， 
即 N el(zj) 二 {x;ED | distance(x;， zj) 三 e)， 该 子 样本 集 的 个 数 记 为 | N el(zj) | 。 

(2) 核 心 对 象 。 对 于 任 一 样本 xz; € D， 如 果 其 e- 邻 域 对 应 的 N e(zi) 至 少 包含 MinPts 
个 样本 ， 即 如 果 | N el(zj) | 三 MinPts， 则 z 是 核心 对 象 。 

(3) 密 度 直 达 ; 如 果 z; 位 于 zj 的 e- 邻 域 中 ， 且 zz 是 核心 对 象 ， 则 称 x; 由 zj 密度 直达 ; 
而 反之 不 一 定 成 立 ， 即 此 时 不 能 说 xz 由 xz; 密度 直达 ,除非 xz 也 是 核心 对 象 。 

(4) 密 度 可 达 。 对 于 xz; 和 xz;， 如果 存在 样本 序列 pi ,ps，…,pr， 满足 pi 二 x;，pr 一 
Zzj， 且 p41 由 p, 密 度 直达 ， 则 称 立 由 二 密度 可 达 。 也 就 是 说 ， 密 度 可 达 满 足 传递 性 。 此 
时 序列 中 的 传递 样本 pi ,ps，… .pr_1 均 为 核心 对 象 ， 因 为 只 有 核心 对 象 才能 使 其 他 样本 密 
度 直达 。 密 度 可 达 也 不 满足 对 称 性 ， 该 结论 可 以 由 密度 直达 的 不 对 称 性 得 出 。 

(5) 密 度 相连 。 对 于 xz; 和 xz;， 如 果 存 在 核心 对 象 样本 x, ,使 x+; 和 xz; 均 由 xz, 密度 可 达 ， 














































则 称 zx; 和 z 密 度 相连 。 密 度 相 连 关系 是 满足 对 称 性 的 。 

56) 核心 点 。 在 半径 Eps 内 含有 超过 MinPts 的 点 。 

(7) 边 界 点 。 在 半径 Eps 内 点 的 数量 少 于 MinPts， 但 落 在 核心 点 的 邻 域内 。 

(8) 品 声 点 。 既 不 是 核心 点 也 不 是 边界 点 的 点 。 

DBSCAN 算法 的 聚 类 定义 是 由 密度 可 达 关 系 导 出 的 最 大 密度 相连 的 样本 集合 ， 即 
为 最 终 聚 类 的 一 个 类 别 ， 或 者 称 为 一 个 簇 。 在 该 篮 中 可 以 有 一 个 或 者 多 个 核心 对 象 。 
如 果 只 有 一 个 核心 对 象 ， 则 簇 中 其 他 非 核心 对 象 样本 都 在 该 核心 对 象 的 e- 邻 域 中 ;如 
果 有 多 个 核心 对 象 ， 则 簇 中 的 任意 一 个 核心 对 象 的 e- 邻 域 中 一 定 有 一 个 其 他 核心 对 象 ， 
和 否则 这 两 个 核心 对 象 无 法 密度 可 达 。 这 些 核 心 对 象 的 e- 邻 域 中 ， 所 有 样本 集合 组 成 一 
个 簇 。 

人 一个， 人 一人 和 




















有 该 核心 对 象 能 够 密度 可 达 的 样本 集合 ， 得 到 一 个 马 ， 然后 ; 一 个 没有 类 别 的 核 
心 对 象 去 寻找 密度 可 达 的 样本 集合 ， 得 到 另 一 个 能， 所 有 核心 对 象 都 有 类 
别 为 止 。 A 

DBSCAN 算法 的 流程 如 下 。 站 

(1) 将 所 有 点 标记 为 核心 点 、 边 界 点 或 si 

52) 删除 噪声 点 。 en 


(3) 为 距离 在 Eps 内 的 所 有 核心 点 呈 了 条 边 ， 
(4) 每 组 连通 的 核心 点 形成 一 全 有 、 本 
(5) 将 每 个 边界 点 指派 到 - Xonemy 六 

与 传统 的 k-means 算 涉 生 估 ”DBSCAN 算法 的 研 关 不 向 就 是 不 需要 输入 类 别 数 k， 它 
eo ha ee Ri 算法 一 样 只 能 适用 于 目的 样本 集 











聚 类 。DBSCAN 优点 : @ 可 以 让 状 的 稠密 数据 集 进 行 聚 类 ;加 可 以 在 
聚 类 的 同时 发 ， 对 数据 集中 的 : 次 不 敏感; 加 到 类 针 果 没有 偏 储 ， 而 mieans 


算法 初始 值 对 泌 关 结果 有 很 大 影响 。 

虽然 DBSCAN 算法 有 诸多 优点 ， 但 仍 存在 以 下 缺点 : 四 样本 集 的 密度 不 均匀 、 聚 类 
间距 相差 很 大 时 ， 聚 类 效果 较 差 ，@ 样 本 集 较 大 时 ， 聚 类 收敛 时 间 较 长 ，@ 调 参 相对 于 传统 
的 聚 类 算法 稍 复杂 ， 主 要 需要 对 距离 阔 值 < 和 邻 域 样本 数 阔 值 MinPts 联合 调 参 ,不 同 的 参 
数组 合 对 聚 类 效果 有 较 大 影响 。 





5.3 大 数据 分 析 的 工具 


RD 在 大 数据 分 析 过 程 中 ， 分 析 者 可 以 借助 工具 方便 快捷 进行 分 析 工 作 。 
只 下 面 介 绍 五 种 比较 常用 的 分 析 工 具 ， 读 者 可 以 根据 需要 灵活 选择 合适 的 

回 工具 。 
【大 数据 分 析 
之 将 Excel 报表 
导入 到 Acecess Excel 是 Microsoft Office 的 核心 组 件 ， 具 有 强大 的 数据 处 理 和 统计 分 
数据 库 】 析 能 力 ,并 且 有 助 于 制定 决策 。 作 为 微软 的 产品 ， 基 于 Hadoop 的 Win- 


5.3.1 Excel 








dows 平台 应 用 程序 集成 了 Excel、PowerView 和 PowerPivot 等 商业 智能 工具 ， 可 以 很 容 
易 地 分 析 大 量 的 业务 信息 ， 从 而 创造 独特 的 、 差 异化 的 商业 价值 。 微 软 公司 应 对 大 数据 
的 解决 方案 是 Hadoop 十 SQL Server 十 Excel 。 

Excel 提供 的 数据 服务 ( 即 分 析 工 具 库 ) 已 成 为 企业 解决 相关 数据 问题 常用 且 实 用 的 工 
具 ， 包括 方 差分 析 、 直 方 图 分 析 、 移 动 平均 分 析 、 回 归 分 析 和 抽样 分 析 等 。 利 用 这 些 数 
据 分 析 工 具 ， 可 以 有 效 地 解决 企业 管理 、 财 务 、 运 营 等 各 项 工作 中 的 问题 ,并且 能 够 根 
据 企业 实际 业务 情况 ,更 好 地 发 挥 数据 的 作用 ,实现 公司 内 部 的 数据 整合 和 使 用 ,摆脱 
了 手工 作业 ， 提 高 了 工作 效率 。 

Excel 采用 插件 的 形式 实现 数据 分 析 功 能 ， 其 插件 主要 包括 Excel 分 析 工 具 和 Excel 
数据 挖掘 选项 卡 。Excel 分 析 工 具 ( 图 5. 5) 可 以 利用 SQL Server 数据 挖掘 对 Excel 数据 进 
行 更 深入 的 分 析 。Excel 的 “数据 挖掘 ”(DATA MINING) 选 项 卡 是 一 个 日 常 工作 中 经 常 
使 用 的 功能 强大 的 工具 ， 如 图 5. 6 所 示 ， 它 提供 一 个 快速 直观 9 可 用 于 创建 、 测 试 
和 管理 数据 挖掘 结构 和 模型 ， 同 时 不 会 影响 SQL Server SS Services 中 的 数据 挖掘 

提供 的 强大 的 自 定义 功能 。 除 了 提供 数据 建 模 算 E 


2eel 数据 挖掘 选项 卡 还 提供 了 
一 个 集 测试 、 预 测 和 绘图 于 一 体 的 桌面 数据 挖掘 和 。 因 此 ，Excel 数据 挖掘 功能 的 
有 效 利 用 将 大 幅 提 高 数据 挖掘 的 效率 ， 使 数据 挫 问 轴 到 推广 和 应 用 。 
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图 5.6 Excel 的 “数据 挖掘 ”选项 卡 


Excel 结合 SQL Server 的 Business Intelligence Development Studio 集成 环境 ， 在 多 
种 算法 (如 决策 树 、 神 经 网 络 和 关联 规则 等 ) 的 支持 下 , 具有 很 强 的 数据 分 析 功 能 ,同时 
能 很 好 地 展示 结果 ， 在 实际 生产 和 研究 中 对 分 析 海量 数据 具有 重要 意义 ， 能 满足 数据 分 

Excel 的 优点 : 加 轻便 ， 不 需要 多 余 的 工具 或 语言 环境 ; 加 可 以 很 方便 地 进行 可 视 化 
操作 ; 回 简单 、 易 上 手 ， 是 非 技术 人 员 的 一 个 很 好 的 选择 ; 四 学 习 成 本 低 ， 并且 学 习 速 
度 快 。 由 于 Excel 具有 这 些 优点 ， 所 以 在 实际 中 得 到 了 广泛 的 应 用 ， 同 时 可 作为 企业 中 数 
据 分 析 师 与 业务 人 员 沟通 的 桥梁 。 














5 3.2 R 


R 是 属于 GNU 系统 的 一 个 自由 、 免 费 和 源 代 码 开放 的 软件 ， 是 一 个 用 于 统计 计算 和 
制图 的 优秀 工具 。R 作为 诞生 于 1980 年 左右 的 S 语 言 的 一 个 分 支 ， 广泛 应 用 于 统计 领域 ， 
可 以 认为 其 是 S 语 言 的 一 种 实现 ， 通 常用 S 语言 编写 的 代码 都 可 以 不 做 修改 地 在 R 环境 
下 运行 。R 的 界面 如 图 5. 7 所 示 。 














R vernion 2.8.0 (2008-10-20) 
Copyz1ghs (C) 2008 The R soundarion sor Scacisrical Coparing 
L388 3-990053-07-0 


全 自由 加 件 软 件 ， 不 号 任何 起 保 。 
在 其 些 条 件 下 你 可 以 将 其 白 由 散布 


用 "license 0" 验 "Licence (0) "来 看 元 有 的 详细 条 件 . 


ee 有 许多 人 为 之 做 出 了 责 献 . 
sr2burers() ' 米 阁 方 作者 的 活活 情况 
用 * Se 会 告 折 你 如 何在 出 版 多 中 二 确 地 引用 "或 起 


用 "asso1) ' 溢 看 一 差 示范 更 夺 ， 尺 ,e318 (来 国 深 它 
未 pelp. ee 通过 #7TML 浏 览 器 来 看 每 助 文 你 。 
0 ' 融 出 R， 





图 5.7 R 的 界 
R 作为 一 种 多 SR 是 集 统 ec 体 的 。 它 可 以 运行 于 


UNIX、Wind YR 个 非常 方便 实用 的 帮助 系统 。 相 比 于 
其 他 统计 分 尽 还 有 以 下 特点 ， 

(DR 是 自由 软件 ， 是 完全 免费 和 开放 源 代码 的 。 在 R 的 网 站 及 其 镜像 中 可 以 下 载 任 
何 有 关 的 安装 程序 、 源 代码 、 程 序 包 及 其 源 代码 、 文 档 资料 。 标 准 的 安装 文件 自身 就 带 
有 许多 模块 和 内 嵌 统 计 函 数 ， 安 装 好 后 可 以 直接 实现 许多 常用 的 统计 功能 。 

(2)R 是 一 种 可 编程 的 语言 。 因 其 具有 开放 的 统计 编程 环境 ， 语 法 通俗 易 懂 ， 易 被 党 
握 ， 可 以 用 其 编制 自己 的 函数 来 扩展 现 有 的 语言 ， 这 也 是 R 的 更 新 速度 比 一 般 统计 软件 
(如 SPSS 和 SAS 等 ) 快 得 多 的 原因 ， 并且 大 多 数 最 新 的 统计 方法 和 技术 都 可 以 在 R 中 直 
接 得 到 。 

(3) 所 有 R 的 函数 和 数据 集 均 保存 在 程序 包 中 。 只 有 当 一 个 包 被 载 人 时 ， 它 的 内 容 才 
可 以 被 访问 。 一 些 常用 的 、 基 本 的 程序 包 已 经 被 收入 标准 安装 文件 中 ， 随 着 新 的 统计 分 
析 方 法 的 出 现 ， 标准 安装 文件 中 包含 的 程序 包 也 随 着 版 本 的 更 新 而 不 断 变化 。 在 其 他 版 
本 的 安装 文件 中 ,已 经 包含 的 程序 包 有 base( 基 础 ) 模 块 、mle( 最 大 似 然 估计 ) 模 块 、ts( 时 
间 序 列 分 析 ) 模 块 、mva( 多 元 统计 分 析 ) 模 块 和 survival( 生 存 分 析 ) 模 块 等 。 

(4)R 具有 很 强 的 互动 性 。 除 了 图 形 输出 是 在 另外 的 窗口 外 ，R 的 输入 /输出 操作 都 是 
在 同一 个 窗口 进行 的 ， 如 果 输 入 语法 中 出 现 错误 会 马上 在 窗口 中 弹出 提示 。 对 之 前 输入 














过 的 命令 有 记忆 功能 ， 可 以 随时 再 现 、 编 辑 、 修 改 以 满足 分 析 者 的 需要 。 输 出 的 图 形 可 
以 直接 保存 为 .jpg、. bmp 和 . png 等 图 片 格式 ， 还 可 以 直接 保存 为 . pdf 文件。 此 外 ，R 
与 其 他 编程 语言 和 数据 库 之 间 有 很 好 的 接口 。 

(5) 如 果 加 入 R 的 帮助 邮件 列表 ， 每 天 都 可 以 收 到 几 十 份 关于 R 的 邮件 资讯 ， 同 时 可 
以 与 全 球 一 流 的 统计 计算 方面 的 专家 讨论 各 种 问题 。 

R 是 由 数据 操作 与 计算 和 图 形 展示 功能 整合 而 成 的 套件 ,包括 有 效 的 数据 存储 和 处 
理 功 能 ; 完整 的 数组 计算 操作 符 ; 完整 体系 的 数据 分 析 工 具 ; 为 数据 分 析 和 显示 提供 的 
强大 图 形 功能 ; 一 套 完 善 、 简 单 、 有 效 的 编程 语言 ， 其 中 包含 条 件 、 循 环 、 自 定义 函数 
和 输入 /输出 功能 等 。 

虽然 R 有 众多 优点 ， 但 也 有 不 足 之 处 : 分 析 者 需要 熟悉 命令 ,并 记 住 常用 命令 ; 所 
有 的 数据 处 理 都 在 内 存 中 进行 ， 不 适用 于 处 理 超大 规模 的 数据 ;运行 速度 稍 慢 等 。 


5.3.3 RapidMiner 


RapidMiner 是 一 个 用 于 数据 挖 据 、 机 器 学 习 和 预 } en 常用 于 解决 各 
种 商业 关键 问题 ， 如 营销 响应 率 、 客 户 细 分 、 客 所 所 终身 价值 、 资 产 维护 、 资 源 
规划 、 预 测 性 维修 、 质 量 管理 、 社 交 媒体 监测 析 等 。RapidMiner 提供 了 数据 挖 
所 和 机 器 学 习 程序 ， 包 括 抽 取 、 和 转换 和 预 处 理 和 可 视 化 ， 建 模 ， 评 估 和 部 署 
等 。 数 据 挖掘 流程 用 可 扩展 标记 语言 sible Markup Language，XML) 描 述 ， 并 通过 


图 形 用 户 界面 (Graphical User Int ONGUD 显示 。RapidMiner 是 用 Java 语言 编写 的 ， 
集成 Weka 的 学 习 和 评估 方法 Sn R 一 起 工作 。 器 wa RapidMiner 还 
具有 以 下 特点 。 A 

(GD) 拖 昌 建 模 ， A ene 无 须 编程 ,< 合 只 甸 用 ， 同 时 支持 用 各 常见 语言 代码 编 
写 ， 以 符合 程序 员 1 和 实现 更 多 功 


(2) RapidMiher TT 能 连接 开源 数据 库 ， 商业 版 能 
过 接 弛 大 少 吉 We 功能 强大 。 


(3) 通 过 Web Service 应 用 ,将 分 析 流 程 整合 到 现 有 工作 流程 中 。 

RapidMiner 的 产品 集 如 下 。 

(1)RapidMiner Studio。 一 种 可 零 代码 操作 的 客户 端 软件 ， 是 一 个 数据 分 析 的 图 形 化 
开发 环境 ， 用 于 设计 分 析 流 程 ， 分 析 者 可 以 在 本 地 计算 机 上 操作 。 它 能 实现 完整 的 建 模 
步 又， 从 数据 加 载 、 汇 集 到 转化 和 准备 阶段 ， 再 到 数据 分 析 和 产生 预测 阶段 。Studio 社 
区 版 和 基础 版 可 以 在 RapidMiner 官网 下 载 。 

(2)RapidMiner Server。 可 以 在 局 域 网 服务 器 或 外 网 连接 的 服务 器 上 与 RapidMiner 
Studio 无 颖 集成 ， 具 有 以 下 功能 : 四 分 享 工 作 流 和 数据 ; 加 作为 常规 配置 的 中 央 存 储 点 ， 
可 以 被 多 个 分 析 者 使 用 ;， 回 进行 大 型 运算 ,减少 分 析 者 本 地 硬件 资源 和 时 间 的 占用 ; 四 提供 
交互 式 仪表 盘 和 报表 展示 功能 ， 让 非 技术 人 员 更 容易 理解 。 

(3)RapidMiner Radoop。 一 个 与 Hadoop 集群 连接 的 扩展 ,可 以 通过 拖 忠 自 带 的 算 子 
执行 Hadoop 技术 特定 的 操作 ,避免 了 Hadoop 集群 技术 的 复杂 性 ,简化 和 加 速 了 在 Ha- 
doop 上 的 分 析 。 

(4)RapidMiner Cloud。 能 在 云 环境 中 执行 和 部 署 分 析 模 型 ,需要 时 可 作为 补充 运算 











































力 ， 能 接 入 多 种 云 数 据 源 和 集中 式 云 资源 库 , 在 任何 地 方 都 可 以 访问 和 分 析 数 据 、 模 型 
和 流程 。 
5.3.4 KNIME 


康 斯 坦 芯 大 学 的 软件 工程 师 团队 于 2004 年 1 月 开发 出 KNIME， 并 且 作 为 专 有 产 
品 。 该 团队 最 初 的 目标 是 创建 一 个 模块 化 、 高 度 可 扩展 和 开放 的 数据 处 理 平台 ， 从 而 
轻松 集成 不 同 的 数据 加 载 、 处 理 、 转 换 、 分 析 和 可 视 化 探索 模块 ， 而 不 必 关 注 任何 特 
定 的 应 用 领域 。KNIME 是 一 个 协作 和 研究 平台 ,也 可 作为 各 种 其 他 数据 分 析 项 目的 集 
成 平台 。 

KNIME 允许 分 析 者 直观 地 创建 数据 流 或 管道 ， 有 选择 地 执行 一 些 或 所 有 分 析 步 又 ， 

后 检查 结果 、 模 型 和 交互 式 视图 。KNIME ww Java 语言 编写 的 ， 并 且 基 于 Eclipse， 
ea rt a 其 核心 版 本 已 和 



































[文件 1/O 和 支持 所 有 通用 Java 数据 库 连 接 (Java 2 ectivity，JDBC) 的 通用 数 
据 库 管理 系统 的 数据 库 节点 ]、 数 据 转换 (过 滤器 、 合 器 ) 及 常用 的 数据 分 析 和 
可 视 化 方法 。 通 过 使 用 免费 的 Report Designer 和 IME 工作 流 可 用 作 数 据 集 ， 创 
建 并 导出 .doc、. ppt、. xls 或 . pdf 等 格式 的 

KNIME 的 其 他 功能 如 下 。 

CGOKNIME 核心 架构 允许 处 理 仅 盘 空间 限制 的 大 数据 ， 而 大 多 数 其 他 开源 
数据 分 析 工 具 在 主 存储 器 中 工作 ， eh Access Memory, 





RAMD) 。 


C2) 额外 的 插件 允许 整 全 交 岩 挖 握 、 图 像 挖 所 分 析 的 方法 。 

(3)KNIME 集成 和 目 ， 

KNIME 是 基 万 篇 clipke 的 开源 数据 控 BT 
数据 控 据 中 转换 加载 换 各 下 工作 让 各 个 功能 节点 玉 完 成， 节点 之 
TO 一 个 节点 。KNIME 界面 如 图 5.8 
所 示 。 

KNIME 的 节点 类 型 如 下 。 

(D1O 类 节点 。 用 于 文件 、 表 格 、 数 据 模型 的 输入 /输出 操作 

(2) 数据 库 操作 类 节点 。 通 过 JDBC 驱动 对 数据 库 进行 操作 。 

G3) 数据 操作 类 节点 。 对 上 一 节点 传 来 的 数据 进行 第 选 、 变 换 和 简单 的 统计 学 计算 等 
操作 。 

G4) 数据 视图 类 节点 。 提 供 了 数据 挖掘 中 最 党 用 的 表格 及 图 形 的 展示 ， 包 括 全 图 、 饼 
图 、 直 方 图 和 数据 出线 等 。 

(5) 统 计 学 模型 类 节点 。 封 装 了 统计 学 模型 算法 类 的 节点 ， 如 线性 回归 和 多 项 式 回 
月 等 

06) 数据 挖掘 模型 类 节点 。 提 供 了 贝 叶 斯 分 析 、 卫 类 分 析 、 决 策 树 和 神经 网 络 等 主要 
数据 控 气 分 类 模型 及 相应 的 预测 器 。 

(7)META 原子 节点 。 可 以 对 任意 子 节点 进行 由 套 封装 ， 还 提供 后 向 传播 、 进 代 、 

环 和 交叉 验证 等 方法 ， 
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5.3.5 Weka 
Weka 是 一 个 境 的 免费 开源 ae 集合 了 大 量 能 承 
担 数据 挖掘 任 算法， 包括 行 巴 处理、 分类、 回归 、 聚 类 、 关 联 规 
则 及 在 新 的 面 上 的 可 视 化 f 





2005 年 8 为 ,在 第 11 届 ACM SIGKDD 国际 会 议 上 ,， 怀 卡 托 大 学 的 Weka 小 组 荣获 
数据 挖掘 和 知识 探索 领域 的 最 高 服务 奖 ，Weka 系统 得 到 了 广泛 的 认可 ,被 誉 为 数据 挖掘 
和 机 器 学 习 历 史上 的 里 程 碑 ， 是 如 今 较 完备 的 数据 挖掘 工具 之 一 。Weka 3. 5. 6 的 界面 如 
图 5.9 所 示 。 

与 很 多 电子 表格 或 数据 分 析 软 件 相 似 ，Weka 处 理 的 数据 集 是 一 个 二 维 表 格 ， 其 中 表 
格 中 的 一 个 横行 称 为 一 个 实例 ， 相 当 于 统计 学 中 的 一 个 样本 或 者 数据 库 中 的 一 条 记录 
一 个 竖 行 称 为 一 个 属性 ， 相 当 于 统计 学 中 的 一 个 变量 或 者 数据 库 中 的 一 个 字段 。 在 Weka 
中 ， 整 个 表格 (或 者 称 为 数据 集 ) 呈 现 出 属性 之 间 的 一 种 关系 。Weka 存储 的 数据 是 . arff 
文件 ， 这 是 一 种 ASCII 文本 文件 ,在 Weka 安装 目录 的 data 子 目 录 下 可 以 找到 。 

Weka 使 用 JDBC 访问 SQL 数据 库 ， 并 可 以 处 理 数据 库 查询 返回 的 结果 。Weka 虽然 
不 能 进行 多 关系 数据 挖掘 ， 但 是 有 单独 的 软件 可 以 链接 数据 库 表 的 集合 并 将 其 转换 为 适 
合 使 用 Weka 处 理 的 单个 表 。 

在 工作 和 研究 中 ， 要 处 理 的 数据 可 能 来 自 各 个 方面 。 在 面 对 庞 大 而 复杂 的 大 数据 时 ， 
选择 一 个 合适 的 处 理工 具 就 显得 尤为 重要 。 一 个 好 的 工具 不 仅 可 以 使 工作 事半功倍 ， 还 












































区 站 界面 
res oR ne met. 


小 结 


本 章 主 要 介绍 了 大 数据 分 析 的 类 型 、 方 法 和 工具 。 大 数据 分 析 主 要 包括 描述 性 分 析 、 
探索 性 分 析 和 验证 性 分 析 。 针 对 数据 的 不 同 结构 、 种 类 和 来 源 等 ， 选 择 不 同 的 分 析 方法 
然后 借助 工具 方便 快捷 地 实现 算法 ， 得 到 有 价值 的 信息 。 总 之 ， 在 大 数据 时 代 ， 使 用 合 
适 的 分 析 方法 和 工具 ， 能 够 有 效 地 从 海量 数据 中 快速 提取 关键 信息 ， 为 企业 和 个 人 带 来 
效益 。 


a 
篇 关键 术语 
司 . 


(1) 回 归 分 析 (2) 频 繁 项 集 (3) 关 联 规则 (4) 朴 素 贝 叶 斯 
(5) 决 策 树 (6) 支 持 向 量 机 (7)k-means 算法 (8)DBSCAN 算法 





DD 





习 题 
1. 选择 题 
(1) 大 数据 分 析 的 主要 类 型 包括 ( 。。)。 
A. 描述 性 分 析 B. 探索 性 分 析 
C. 验证 性 分 析 D. 以 上 都 是 
(2) 描 述 数 据 集中 趋势 的 指标 有 ( 和 
A. 平均 数 B. 极 差 
C. 分 位 距 D. 标准 差 
(3)( ) 的 好 处 在 于 不 需要 参照 数据 的 平均 值 。 
A. 标准 差 BB. 方差 伦 
C. 平均 差 D. 离散 系 NK 
(4) 回 归 中 最 常 使 用 的 技术 是 ( 和 


A，A-means 算法 BR 认 
C. 支持 向 量 机 Se 算法 
(5)( ) 是 数据 集中 包含 该 项 集 的 比 
A. 置信 度 
C, 距离 .以 上 都 本 
(6)Apriori 算法 的 输入 矢 : 本 
A， 最 小 支持 度 和 系 和 数据 集 


C. 最 小 置信 度 支持 度 和 置信 度 
(7)(  ) 是 提 入 党 出 现在 一 A 
尺 和 % 


A. KB 关系 

c. 丰 D, 数据 集 
(8) 决 策 树 是 一 种 常见 且 灵 活 的 用 来 开发 数据 挖 所 应 用 的 方法 ， 包括 ( yo 

A. 回归 树 和 二 又 树 B. 分 类 树 和 二 又 树 

C. 分 类 树 和 回归 树 D. 二 又 树 
2. 判断 题 
(1) 验 证 性 分 析 与 探索 性 分 析 的 不 同 在 于 ， 验 证 性 分 析 致 力 于 找 出 事物 内 在 的 本 质 结 
而 探索 性 分 析 则 主要 检验 已 知 的 特定 结构 是 否 按照 预期 的 方式 产生 作用 。 ( ) 
(2) 验 证 性 分 析 中 ， 在 构建 完 数据 模型 后 需要 对 模型 进行 评价 ， 判 断 其 合理 性 。 〔 
(3) 数 据 拟 合 模型 常用 的 方法 有 极 大 似 然 估 计 和 渐进 分 布 自 由 估计 。 ( ) 

) 


(4? 构 建 因 子 模型 时 载荷 可 以 事先 定 为 0 或 者 其 他 自由 变化 的 常数 。 ( 
(5) 回 归 分 析 类 似 于 分 类 ， 但 不 用 于 描述 类 的 模式 ,而 是 通过 查找 模式 确定 数值 。 

( 
(6) 线 性 回归 模型 经 常 采 用 最 小 二 乘法 来 拟 合 ， 也 可 用 其 他 方法 来 拟 合 。 ( 
(7) 逻 辑 回 归 是 一 种 广义 线性 回归 ， 与 多 重 线性 回归 分 析 有 很 多 相同 之 处 。 人 
(8) 频 繁 项 集 的 所 有 非 空 子 集 不 一 定 是 频繁 的 。 ( 








3. 简 答 是 

(1) 简 述 探索 性 分 析 的 特点 。 

(2) 验 证 性 分 析 的 步骤 有 哪些 ? 

(3) 简 述 验 证 性 分 析 与 探索 性 分 析 的 区 别 。 
(4)FP-Growth 算法 的 步骤 有 哪些 ? 

(5) 简 述 决 策 树 的 优点 。 

(6)SVM 有 哪些 缺点 ? 

(7) 简 述 k-means 算法 的 思想 。 

(8) 催 辑 回归 的 适用 条 件 有 哪些 ? 
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知识 要 点 掌握 程度 
可 视 化 的 概念 掌握 
可 视 化 的 作用 掌握 


相关 知识 

思想 和 应 用 标准 

伦 的 观测 、 跟 踪 和 分 析 数 据 等 作用 

状 图 、 桑 基 图 、 漏 沈 图 、 散 点 图 和 折线 图 等 的 含义 


基于 图 形 的 可 视 化 技术 SA 
基于 平行 坐标 法 的 可 视 化 技术 小 平行 坐标 图 的 作 
其 他 大 数据 可 视 化 技术 A 基于 图 标 、 

人 和信 门 级 工具 i 


E Nae Spreadsheets 的 可 视 化 功能 
i J eee API、D3、Visual. ly、Tableau 和 大 数据 
ww T 解 | 匀称 > 






















层次 等 的 可 视 化 技术 的 含义 



































地 图 工具 了 解 Google Fusion Tables 、Modest Maps 和 Leaflet 的 含义 
时 间 线 工具 了 解 Timetoast、xTimeline 的 含义 
高 级 分 析 工 具 掌握 R、Weka 和 Gephi 的 可 视 化 功能 
i 大 数据 可 视 化 的 视觉 噪声 、 信 息 丢 失 和 数据 结构 各 异 且 
大 数据 可 视 化 面临 的 挑战 掌握 多 源 等 问题 和 挑战 
大 数据 可 视 化 的 发 展 方向 熟悉 多 视图 整合 和 大 屏 展 示 等 的 大 数据 可 视 化 发 展 方向 
大 数据 可 视 化 的 未 来 应 用 熟悉 设备 仿真 可 视 化 和 数据 统计 分 析 可 视 化 等 的 大 数据 可 视 
化 未 来 应 用 





在 大 数据 时 代 , 分 析 者 不 仅 要 处 理 海 量 数据 ,而 且 要 加 工 、 传 播 和 分 享 这 些 数据 。 
大 数据 可 视 化 是 正确 理解 数据 信息 的 好 方法 ， 通过 呈现 和 处 理 庞大 的 数据 ， 归 纳 得 出 数 
据 内 在 的 模式 、 关 联 和 结构 。 大 数据 可 视 化 是 大 数据 分 析 的 最 后 环节 ,也 是 非常 关键 的 
一 环 。 本章 将 从 概述 、 技 术 、 工 具 和 发 展 四 个 方面 介绍 大 数据 可 视 化 的 相关 内 容 。 





6.1 可 视 化 概述 


大 数据 可 视 化 随 着 大 数据 时 代 的 到 来 而 兴起 ， 可 视 化 分 析 是 大 数据 分 析 不 可 或 缺 的 
国 呀 &: 国 一 种 重要 手段 和 工具 ， 只 有 在 真正 理解 可 视 化 概念 后 ， 才 能 更 好 地 研 





到 究 并 应 用 其 原理 和 方法 ， 从 而 获得 数据 背后 隐藏 的 价值 。 因 此 ， 本 节 
昨 将 介绍 可 视 化 的 概念 、 起 源 和 作用 。 
【大 数据 可 视 化 6.1.1 可 视 化 的 概念 

0 数据 可 视 化 是 关于 数据 视觉 表现 形式 的 科学 技术 研究 ， 这 种 数据 


的 视觉 表现 形式 被 定义 为 以 某 种 概要 形式 抽取 出 来 的 信息 ， 包 括 
性 和 变量 。 数 据 可 视 化 涉及 计算 机 视觉 、 图 像 处 理 、 计 算 
多 个 领域 ， 是 一 项 研究 数据 表示 、 数 据 处 理 和 决策 分 析 等 9 综 痊 技术 。 

数据 可 视 化 的 思想 是 将 数据 库 中 的 每 一 个 数据 图 元 元 素 表示 ,大 量 的 数 
据 集 构成 数据 图 像 ， 同 时 将 数据 的 各 个 属性 值 以 的 形式 表示 出 来 ， 可 以 从 不 同 
的 维度 观察 数据 ， 从 而 对 数据 进行 更 深入 的 


在 大 数据 时 代 ， 数 据 变 得 规模 巨大 且 烦 BiN_ 变 想 发 现 数据 中 包含 的 信息 或 知识 ， 可 
视 化 是 非常 有 效 的 途径 。 数 据 瑟 Tt 











人 


类 型 不 再 只 是 结构 化 数据 ， 还 包含 非 结构 


化 和 半 结 构 化 数据 ， 而 且 表现 形 ， 而 非 只 有 统计 图 表 方 式 。 
人 0 和 四 用 人 7 面 : 人 直观 、 形 象 地 呈现 出 来 ; 


回 关联 化 ， 突 出 呈现 数据 之 关联 性 ; 回 艺 术 作 人 ;的 呈现 更 具有 艺术 性 、 更 多 


合 审美 规则 ， ee ie 用 户 控制 数据 。 
6.1.2 EE 和 


可 视 化 的 趣 汶 可 以 追溯 到 20 世纪 50 看 代 计算 机 图 形 学 学 的 早期 ， 当 时 人 们 利用 计算 
创建 了 首 批 图 形 图 表 。 

1987 年 ， 由 布鲁斯 。 麦 考 梅 克 、 托 马 斯 。 德 房 带 和 玛 克 辛 。 布朗 编写 的 美国 国家 科 
学 基金 会 报告 Visualization in Scientific Computing 对 数据 可 视 化 领域 的 产生 起 到 促进 
作用 ,这 份 报告 中 强调 了 新 的 基于 计算 机 的 可 视 化 方法 的 必要 性 。 随 着 计算 机 运算 能 力 
的 迅速 提升 ， 人 们 建立 了 规模 越 来 越 大 、 复 杂 程 度 越 来 越 高 的 数值 模型 ， 从 而 产生 了 形 
形 色色 体积 庞大 的 数值 型 数据 集 。 同时， 人 们 不 但 利用 医学 扫描 仪 和 显微镜 等 数据 采集 
设备 创建 了 大 型 的 数据 集 ， 而且 利用 可 以 保存 文本 、 数 值 和 多 媒体 信息 的 大 型 数据 库 来 
收集 数据 。 因 此 ， 需 要 高 级 的 计算 机 图 形 学 技术 与 方法 来 处 理 和 可 视 化 这 些 规模 庞大 的 
数据 集 。 

Visualization in Scientific Computing 后 来 变 成 了 Scientific Visualization， 而 前 者 最 初 
者 的 是 作为 科学 计算 的 组 成 部 分 的 可 视 化 ， 即 在 科学 与 工程 实践 中 对 计算 机 建 模 和 模拟 
的 运用 

后 来 ， 可 视 化 领域 逐渐 重视 数据 ， 包 括 来 自 商业 、 财 务 、 行 政 管理 、 数 字 媒 体 等 方 
面 的 大 型 异 质 性 数据 集合 。20 世纪 90 年 代 初期 ， 人 们 发 起 了 一 个 称 为 “信息 可 视 化 ”的 




















[ss 大 数据 可 视 化 


研究 领域 ， 旨 在 为 许多 应 用 领域 中 对 抽象 的 异 质 性 数据 集 的 分 析 工 作 提供 支持 。21 世纪 ， 
人 们 正在 逐渐 接受 这 个 同时 涵盖 科学 可 视 化 与 信息 可 视 化 领域 的 新 生 术 语 一 “数据 可 
视 化 ”。 

一 直 以 来 ,数据 可 视 化 就 是 一 个 处 于 不 断 演变 的 概念 ， 其 边界 也 在 不 断 扩大 。 因 此 ， 
最 好 对 其 加 以 宽泛 的 定义 。 数 据 可 视 化 指 的 是 技术 上 较为 高 级 的 技术 方法 ， 而 这 些 技术 
方法 允许 利用 图 形 、 图 像 处 理 、 计 算 机 视觉 和 用 户 界 面 , 通过 表达 、 建 模 及 对 立体 、 表 
面 、 属 性 与 动画 的 显示 ， 对 数据 加 以 可 视 化 解释 。 与 立体 建 模 等 特殊 技术 方法 相 比 ， 数 
据 可 视 化 涵盖 的 技术 方法 广泛 得 多 。 

随 着 大 数据 时 代 的 到 来 ， 每 时 每 刻 都 在 生成 海量 数据 ， 因 此 需要 对 数据 进行 及 时 、 
全 面 、 快 速 和 准确 的 分 析 ， 体 现 数据 背后 的 价值 ， 这 就 更 需要 可 视 化 技术 协助 用 户 更 好 
地 理解 和 分 析 数 据 ， 可 视 化 也 因此 成 为 大 数据 分 析 的 最 后 且 最 重要 的 一 环 。 



































6.1.3 可 视 化 的 作用 NN 

TT Data 
可 视 化 的 需求 越 来 越 大 ,依靠 可 视 化 手段 进行 为 大 数据 分 析 流 程 的 主要 环节 
之 一 。 大 数据 可 视 化 的 具体 作用 如 下 。 xX) 


1. 观测 、 跟 踪 数 据 
Rong A 
于 不 断 变化 的 多 个 参数 值 ， 如 ee ht 
变化 的 数据 生成 实时 变化 的 妈 表 ,可 以 让 LE 种 参数 的 动态 变化 过 程 ， 从 
而 有 效 跟踪 各 种 参数 数 

2 分 析 数 据 2 


关 
be on 
的 信息 执行 后 续 桨 析 操 作 ， 完 成 用 户 与 分 析 算法 的 全 程 交互 ， 实 现 数据 分 析 算法 与 用 户 
领域 知识 的 完美 结合 。 典 型 的 可 视 化 分 析 过 程 如 图 6. 1 所 示 。 数 据 首先 被 转化 为 图 像 旺 现 
给 用 户 ， 用 户 通过 视觉 系统 进行 观察 分 析 ， 同 时 结合 自己 的 领域 知识 对 可 视 化 图 像 进行 
认 知 ， 从 而 理解 和 分 析 数据 的 内 涵 和 特征 。 用 户 还 可 以 根据 分 析 结果 ， 通 过 改变 可 视 化 
程序 系统 设置 ， 交 互 地 更 改 输出 的 可 视 化 图 像 ， 从 而 根据 自己 的 需求 从 不 同 角 度 理解 














6.1 典型 的 可 视 化 分 析 过 程 








3. 辅助 理解 数据 


可 视 化 技术 可 帮助 用 户 更 快 、 更 准确 地 理解 数据 背后 的 含义 ， 如 用 不 同 的 颜色 区 
分 不 同 对 象 、 用 动画 显示 变化 过 程 、 用 图 结构 展现 对 象 之 间 的 复杂 关系 等 。 例 如 
微软 亚洲 研究 院 设计 开发 的 人 立方 关系 搜索 ， 能 从 10 亿 多 个 的 中 文 网 页 中 自动 抽取 
出 人 名 、 地 名 、 机 构 名 和 中 文 短语 ， 并 通过 算法 自动 计算 出 它们 之 间 存 在 关系 的 可 
能 性 ， 最 终 以 可 视 化 关系 图 的 形式 呈现 结果 。 人 立方 关系 搜索 除了 提供 网 页 结果 之 
外 ， 还 能 够 提取 出 这 些 网 页 中 包含 的 人 名 、 地 址 、 机 构 等 信息 ， 并 将 所 有 与 关键 字 
相关 的 信息 按照 网 络 流行 度 或 关系 亲密 度 进行 排序 。 这 种 信息 过 滤 与 聚合 方式 为 信 
息 浏览 提供 了 很 大 的 便利 。 

4. 增加 数据 吸引 力 


枯燥 的 数据 被 制作 成 具有 强大 视觉 冲击 力 和 说 服 力 的 图 像 ,村 鹤 大 大 增加 读者 的 阅 
读 兴趣 。 传 统 保守 的 讲述 方式 已 经 不 能 引起 读者 的 兴趣 ， :更 直观 、 高 效 的 信息 呈 


现 方式 。 因 此 ， 现 在 的 新 闻 播 报 越 来 越 多 地 使 用 动态 、 立 体 化 地 呈现 新 闻 内 
容 ， 让 读者 一 目 了 然 ， 能 够 在 短 时 间 内 消化 和 四 提高 了 知识 理解 的 效率 。 例 如 ， 
.2 


《华盛顿 邮 报 》 的 图 解 新 闻 作 品 《 问 题 的 深 ) 利 用 数据 图 表 和 对 比 的 方式 体现 


出 大 海 的 广阔 深度 。 
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图 6.2 《华盛顿 邮 报 》 的 图 解 新 闻 作品 《问题 的 深度 》 








6.2 大 数据 可 视 化 的 技术 


可 视 化 技术 是 指 利用 计算 机 科学 技术 ， 将 计算 产生 的 数据 以 更 易 理 解 的 形式 展示 出 
来 ， 使 元 余 的 数据 变 得 直观 形象 的 技术 。 大 数据 时 代 ， 利 用 数据 可 视 化 技术 可 以 有 效 提 
高 海量 数据 的 处 理 效率 、 挖 掘 数据 的 隐藏 信息 ， 给 企业 带 来 巨大 的 商业 价值 。 例 如 ， 电 
信和 运营 商 挖掘 出 用 户 的 使 用 习惯 和 消费 偏好 ， 实 现 精准 营销 和 客户 保有 。 下 面 介绍 常用 
的 大 数据 可 视 化 技术 。 


6.2.1 基于 图 形 的 可 视 化 技术 

















大 数据 的 复杂 性 和 多 样 性 意味 着 人 们 需要 对 大 量 的 多 维 数据 进行 处 理 和 分 析 。 基 于 
的 机 化 技术 寿 所 备 个 从 之 人 的 关系 在 空 间 从 和 中 3 旭 扩 式 天 上， 
便于 数据 特征 的 突出 和 信息 传递 。 全 
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图 6.3 树 状 图 示例 
树 状 图 把 分 类 总 单位 摆 在 树枝 顶部 ,然后 根据 需要 ,从 总 单位 中 分 出 几 个 分 支 ， 而 


这 些 分 支 可 以 作为 独立 的 单位 ， 继 续 向 下 分 类 , 依 此 类 推 。 从 树 状 图 中 ,可 以 很 清晰 地 
看 出 分 支 和 总 单位 的 部 分 和 整体 关系 .以 及 这 些 分 支 之 间 的 关系 。 











如 果 分 析 者 要 处 理 的 数据 存在 整体 和 部 分 的 关系 ， 且 数据 量 很 大 ， 要 想 看 清楚 每 个 
部 分 的 具体 情况 ， 可 以 选择 树 状 图 呈现 数据 。 


2. 桑 基 图 


桑 基 图 是 一 种 特定 类 型 的 流程 图 ， 因 1898 年 Matthew Henry Phineas Riall Sankey 绘 
制 的 “蒸汽 机 的 能 源 效率 图 ”而 闻名 ， 此 后 便 以 其 名 字 (Sankey) 命 名 ,图 中 延伸 的 分 支 
的 宽度 对 应 数据 流量 的 大 小 ,适用 于 用 户 流量 、 材 料 成 分 等 数据 的 可 视 化 分 析 。 桑 基 图 
最 明显 的 特征 是 始末 端的 分 支 宽度 总 和 相等 ， 即 所 有 主 支 宽度 的 总 和 与 所 有 分 支 宽度 的 
总 和 相等 ， 保 持 能 量 的 平衡 。 图 6. 4 为 某 网 站 2015 年 10 月 12 一 18 日 不 同 地 区 的 用 户 支 
付 订单 量 的 变化 过 程 ， 图 中 流 线 的 宽度 表示 支付 订单 量 。 
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某 网 站 2015 年 10 月 12 一 18 日 不 同 地 区 的 用 户 支付 订单 量 的 变化 过 程 
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3. 漏斗 图 

漏斗 图 用 于 衡量 业务 的 流程 表现 ， 适 用 于 流程 比较 规范 、 周 期 长 、 环 节 多 的 业务 分 
析 。 某 网 站 流量 的 转化 漏斗 如 图 6. 5 所 示 。 漏 斗 图 的 优点 在 于 : 四 能 够 快速 发 现 问题 ， 及 
时 调整 运营 策略 ， 加 直观 展示 两 端 数据 ， 了 解 目标 数据 ;加 提高 业务 的 转化 率 。 例 如 ， 
在 以 电 商 为 代表 的 业务 分 析 中 ， 通 过 转化 率 比较 能 充分 展示 从 用 户 打开 网 站 到 实现 购买 
的 最 终 转化 率 。 漏 斗 图 是 评判 产品 健康 程度 的 图 表 , 由 网 站 的 每 一 个 设计 步骤 的 数据 转 
化 反馈 得 到 结论 ， 然 后 通过 各 阶段 的 转化 分 析 去 改善 设计 ,在 提升 用 户 体验 的 同时 ， 提 
高 了 网 站 的 最 终 转 化 率 。 

4. 散 点 图 


散 点 图 是 指 根据 数据 在 直角 坐标 系 中 的 分 布 情况 绘制 而 成 的 图 形 ， 能 够 表示 因 变 量 
随 自 变 量变 化 的 大 致 趋势 ,判断 两 变量 之 间 是 否 存在 某 种 关联 或 总 结 数据 的 分 布 模式 。 
散 点 图 示例 (不 同城 市 的 支付 订单 量 与 取消 订单 量 的 关系 ) 如 图 6.6 所 示 。 
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图 6.5 某 网 站 流量 的 转化 漏斗 
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图 6.6 mso 与 取消 订单 量 的 关系 ) 
散 点 图 有 以 妃 。 


(1) 散 点 
图 会 十 分 麻烦 


现 多 个 变量 间 的 主要 相关 性 。 


i 降 | 当 要 同时 考察 多 个 变 筷 同 的 相互 关系 时 ， 一 一 绘制 变量 之 间 的 散 点 
时 可 利用 散 点 图 矩阵 来 同时 绘制 各 变量 间 的 散 点 图 ,这样 可 以 快速 发 





(2) 三 维 散 点 图 。 虽 然 在 散 点 图 矩阵 中 可 以 同时 观察 多 个 变量 间 的 关系 ， 但 观察 时 
可 能 会 漏 掉 一 些 重要 的 信息 。 三 维 散 点 图 是 在 由 三 个 变量 确定 的 三 维 空间 中 研究 变量 


之 间 的 关系 图 
的 信息 。 





， 由 于 同时 考虑 了 三 个 变量 ， 因 此 常常 可 以 发 现在 二 维 图 形 中 发 现 不 了 


(3)ArcGIS 散 点 图 。 在 z-y 坐标 系 中 绘制 点 ， 可 以 揭示 数据 之 间 的 关系 并 显示 数据 的 


趋势 。 


散 点 图 与 折线 图 相似 ,不同 之 处 在 于 折线 图 通过 将 数据 相连 来 显示 数据 的 变化 。 当 
存在 大 量 数据 点 时 ， 散 点 图 的 作用 尤为 明显 。 


5. 折线 图 


折线 图 能 够 显示 随时 间 变 化 的 连续 数据 ， 适 用 于 展示 在 相同 时 间 间 隔 下 数据 的 趋势 。 
折线 图 示例 (不 同时 间 的 支付 订单 量 ) 如 图 6. 7 所 示 。 在 折线 图 中 ， 类 别 数据 沿 水 平 轴 均 匀 
分 布 ， 值 数据 沿 垂直 轴 均 匀 分 布 。 
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图 6.7 折线 图 示例 (不 同时 间 的 支付 订单 量 ) 
如 果 分 类 标签 是 文本 且 代 表 均 匀 分 布 的 数值 ， 如 时 间 节 点 人 但 是 如 果 
拥有 的 标签 多 于 10 个 ,那么 应 该 使 用 散 点 图 。 此 外 ， AS- 竺 多 数据 的 对 比 。 


6. 条 形 图 和 柱状 图 
条 形 图 用 直 条 的 长 度 表示 数量 或 比例 ， A 类 别 等 一 定 顺序 排列 起 来 ， 主 要 
用 于 表示 数量 、 频 数 或 频率 等 。 条 形 图 示 市 的 支付 订单 量 ) 如 图 6. 8 所 示 。 条 形 
图 包括 单 式 条 形 图 和 复式 条 形 图 ， 单 队 表示 一 个 群体 数据 的 频数 分 布 ， 复 式 条 形 
图 表示 多 个 群体 数量 分 布 的 比较 。 








0 13 2.6 3.9 52 
支付 订单 量 /MB 
图 6.8 条 形 图 示例 (不 同城 市 的 支付 订单 量 ) 


柱状 图 和 条 形 图 的 质 上 相同 的 ， 只 是 在 z-y 坐标 系 上 的 分 布 不 同 。 柱 状 图 示例 (不 同 
公司 的 订单 金额 ) 如 图 6. 9 所 示 。 在 延伸 方向 上 ， 条 形 图 水 平 延 伸 ， 而 柱状 图 则 垂直 延伸 ; 
在 数据 呈现 方式 上 ， 条 形 图 和 柱状 图 均 对 不 同 数据 集 采 用 不 同 的 颜色 标注 ， 以 进行 数据 
组 之 间 的 直观 对 比 。 

7. 饼 图 


饼 图 以 二 维 或 三 维 的 形式 展示 一 个 数据 系列 中 各 项 的 大 小 及 与 各 项 总 和 的 比率 ， 饼 
图 中 的 数据 标签 表示 该 类 商品 占 整个 饼 图 的 百分比 。 

饼 图 有 以 下 几 种 类 型 。 

(1) 普 通 饼 图 。 以 二 维 或 三 维 形式 显示 每 个 数值 相对 于 总 数值 的 大 小 ， 示 例 ( 不 同 终 
端的 注册 占 比 情况 ) 如 图 6. 10 所 示 。 
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图 6.9 柱状 图 示例 (不 同 
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图 6.10 普通 饼 图 示例 (不 同 终端 的 注册 占 比 情况 ) 
(2) 复 合 饼 图 。 将 用 户 定义 的 数值 从 主 饼 图 中 提取 出 来 并 组 合 到 第 二 个 饼 图 或 堆积 条 
形 图 的 饼 图 中 ,示例 (不 同 区域 的 销售 额 占 比 情况 ) 如 图 6. 11 所 示 。 
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图 6.11 复合 饼 图 示例 (不 同 区 域 的 销售 额 占 比 情 况 ) 








(3) 分 离 型 饼 图 。 展 示 每 个 数值 相对 于 总 数值 的 大 小 并 强调 每 个 数值 ， 示 例 (不 同 区 
域 的 销售 额 占 比 情况 ) 如 图 6. 12 所 示 。 分 离 型 饼 图 能 够 以 三 维 形式 显示 。 


8. 地 图 
北京 


18% 在 实际 工作 中 ， 有 时 会 遇 到 数据 与 地 
名 有 关 的 情况 ， 此 时 虽然 也 能 用 Excel 图 表 
来 呈现 ,但 如 果 能 将 数据 和 地 图 结合 起 来 ， 
则 将 获得 更 好 的 效果 。 应 用 地 图 来 分 析 和 
展示 与 位 置 相关 的 数据 ， 要 比 在 Excel 中 单 
纯 用 数字 展示 更 明确 、 更 直观 ， 让 人 一 目 


6.2.2 i 





海量 的 非 结构 化 数据 (如 
用 户 评分 数据 和 文档 词 频数 据 
作 数 据 ， 而 平行 坐标 法 可 以 实现 





图 6. 12 分 离 型 饼 图 示例 
(不 同 区 域 的 销售 额 占 比 情况 ) 二 数 
中 以 更 直观 的 形式 展示 高 维 数据 ， 以 表达 的 信息 。 
平行 坐标 法 中 多 个 垂直 平行 ea 维度 上 的 刻度 表示 在 该 属性 上 
的 对 应 值 ， 并 可 用 颜色 区 分 ~ 本 





在 各 个 维 麻 称 寻 应 一 个 值 ， 相 连 而 得 的 一 条 
折线 表示 该 样本 。 平 行 坐标 图 6.13 所 示 。 
度 


花 因 宽度 
2.50: 





图 6.13 平行 坐标 法 示例 


平行 坐标 法 可 以 清楚 直观 地 表示 数据 关系 ， 相 比 于 其 他 矢量 图 等 可 视 化 图 表 更 简洁 ， 
但 是 数据 维度 的 显示 会 受到 屏幕 宽度 的 制约 ， 随 着 数据 维度 的 增加 ， 纵 轴 间 距 将 不 断 缩 
小 ， 进 而 影响 数据 的 可 视 化 效果 。 














6.2.3 其 他 大 数据 可 视 化 技术 


除了 6.2.1 和 6.2.2 中 提 及 的 基于 图 形 和 平行 坐标 法 的 可 视 化 技术 外 ,还 有 基于 图 
标 、 基 于 像素 和 基于 层次 等 的 可 视 化 技术 。 
(1) 基 于 图 标的 可 视 化 技术 。 其 思想 是 用 简单 图 标的 各 个 部 分 表示 n 维 数据 属性 。 基 
于 图 标的 可 视 化 技术 包括 Chernoff faces、Shape Coding 和 Stick Figures 等 ， 适 用 于 某 些 
维 值 在 二 维 平面 上 具有 良好 展开 属性 的 数据 集 。 枝 形 图 法 是 其 中 的 基本 方法 之 一 。 使 用 
枝 形 图 时 ， 先 选取 多 维 属性 中 的 两 种 属性 作为 基本 的 xz-y 平面 坐标 系 ， 在 此 平面 上 利用 小 
树枝 的 长 度 或 角度 的 不 同 表示 出 其 他 属性 值 的 变化 。 
(2) 基 于 像素 的 可 视 化 技术 。 其 思想 是 将 每 个 数据 值 对 应 于 一 个 带 颜 色 加 ji 和 回 
的 屏幕 像素 ， 不 同 的 数据 属性 以 不 同 的 窗口 分 别 表 示 。 该 技术 的 特点 在 于 过 
能 在 屏幕 中 尽 可 能 多 地 显示 相关 数据 。 nn 4 有 独 
立 于 查询 的 方法 和 基于 查询 的 方法 。 
(3) 基 于 层次 的 可 视 化 技术 。 Mb 层次 结构 的 数 【 共 于 像素 的 
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据 空间 划分 为 若干 子 空间 ， 以 层次 结构 的 方 空间 并 以 图 形 展 市 的 迹 交 可 
示 出 来 。 ee ee TreeMap 和 
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Cone Trees 等 。 


ee IDVET 系统 虚拟 现实 技术 展示 数据 空间 
和 空间 上 的 点 us SS 先 将 ， 再 可 视 化 感 兴趣 的 簇 ; 





ee 现 数据 ， 但 是 以 表 中 的 数字 ， 并 且 给 出 观察 
的 视点 人 系统 强调 动态 和 交互 技术 ， 用 户 
能 同时 以 不 同 的 可 方法 处 理 相 同 的 数 sD 扫 术 、 基于 图 形 技术 等 也 在 被 研 
究 和 开发 中 。 ws 
ES 国家 兴国 
6.3 ph 
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传统 的 数据 可 视 化 工具 仅 对 数据 加 以 组 合 ， 通 过 不 同 的 展现 方式 
提供 给 用 户 ， 用 于 发 现 数据 之 间 的 关联 信息 。 而 大 数据 时 代 的 大 数据 【大 均 据 可 视 交互 
可 视 化 产品 必须 满足 互联 网 爆发 的 大 数据 需求 ， 必 须 能 够 快速 地 收集 、 至 统 RoyPat 
筛选 、 分 析 、 归 纳 和 展现 决策 者 需要 的 信息 ， 并 根据 新 增 的 数据 进行 实时 更 新 。 目 前 已 
经 有 很 多 大 数据 可 视 化 的 工具 ， 其 中 大 部 分 是 免费 的 ， 可 以 满足 各 种 可 视 化 需求 。 下 面 
介绍 几 种 常用 的 可 视 化 工具 。 


6.3.1 入 门 级 工具 


入门 级 工具 是 最 简单 的 大 数据 可 视 化 工具 ,只 需 对 数据 进行 复制 、 粘 贴 ， 直接 选择 
需要 的 图 形 类 型 ， 然 后 稍微 调整 即 可 。 常 用 的 人 门 级 工具 如 下 。 

(1)Excel。 操 作 简单 ， 生 成 图 表 快 速 。 用 户 不 需要 复杂 的 学 习 即 可 使 用 其 提供 的 各 种 
图 表 功 能 ,但 很 难 制作 出 符合 专业 出 版 物 和 网 站 需要 的 数据 图 。 


























(2)Google Spreadsheets。Excel 的 云 版 本 ， 增 加 了 动态 、 交 互 式 图 表 ， 支 持 的 操作 类 
型 更 丰富 ， 但 服务 器 负载 过 大 时 运行 速度 会 变 得 缓慢 。 


6.3.2 信息 图 表 工 具 


信息 图 表 是 信息 、 数 据 或 知识 等 的 视觉 化 表达 ， 利用 人 脑 更 易 理 解 图 形 信息 的 特点 ， 
ee he 更 清晰 地 传递 信息 ， 在 计算 机 科学 、 数 学 和 统计 学 领域 中 有 着 广泛 的 
应 用 。 常 见 的 信息 图 表 工 具 如 下 。 
oe Chart API。 谷 歌 的 制图 服务 接口 ， 可 以 用 来 统计 数据 ,自动 生成 图 片 。 
使 用 该 工具 非常 简单 ， 不 需要 安装 任何 软件 ， 可 以 通过 浏览 器 在 线 查 看 统计 图 表 。 
Google Chart API 提供 折线 图 、 条 形 图 、 饼 图 、 维 恩 图 和 散 点 图 五 种 图 表 。 
(2)D3。 较 流行 的 可 视 化 库 之 一 ， 用 于 网 页 作 图 、 生 成 互动 图 形 的 JavaScript 函数 
库 ， 提供 D3 对 象 ， 所 有 方法 都 通过 该 对 象 进行 调用 。D3 量 线性 图 和 条 形 图 
之 外 的 复杂 图 表 样 式 ， 如 Voronoi 图 、 树 状 图 、 图 形 集群 


回避 加 (3)Visual. ly。 可 以 快速 创建 自 害 义 样式 美观 且 具 有 强烈 视觉 冲 
=; 击 的 信息 图 表 ， 方便 好 用 ， 不 1 可 任何 与 设计 相关 的 知识 。 
男 tr (4)Tableau。 桌 面 系 旨 的 商业 智能 工具 软件 ， 适 用 于 企 


【如 何 用 Tableau 业 和 部 门 进行 日 常数 据 数据 可 视 化 分 析 工 作 。Tableau 是 数据 
制作 可 视 化 图 表 】 运算 与 图 表 美 观 的 完 4 人 用户 只 需 将 大 量 数据 拖 放 到 数字 画布 上 ， 


即 可 创建 好 各 种 图 表 。 
og > 国产 数据 Tt 
a 据 























































可 en. 探 5 用 户 只 需 通过 拖 放 界面 
加 站 2 Re 。 企 业 积累 的 各 种 来 自 内 部 
【关上 汪 谢 全 et 如 网 站 Se et 财务 数据 和 社会 
Wa ， 都 可 在 魔 并 进行 实时 分 析 。 
6.3.3 Nn 


地 图 工具 在 大 数据 可 视 化 中 较 常 见 ， 对 基于 空间 或 地 理 分 布 的 数据 显示 有 很 强 的 表现 
力 ， 可 以 直观 地 展现 各 分 析 指 标的 分 布 和 区 域 等 特征 。 当 指标 数据 要 表达 的 主题 与 地 域 有 关 
时 ， 就 可 以 选择 地 图 作为 大 背景 ， 从 而 帮助 用 户 更 加 直观 地 了 解 整体 数据 情况 ， 同 时 可 以 根 
据 地 理 位 置 快速 定位 到 某 一 地 区 来 查看 详细 数据 。 常 见 的 地 图 工具 如 下 。 

(1)Google Fusion Tables。 可 以 图 表 、 图 形 或 地 图 形式 呈现 数据 表 ， 从 而 帮助 用 户 发 
现 隐 藏 在 数据 背后 的 模式 和 趋势 ， 也 可 以 制作 出 专业 的 统计 地 图 。 

(2)Modest Maps。 是 小 型 、 可 拓展 和 交互 式 的 免费 地 图 库 ， 提 供 了 一 套 查看 卫星 地 
图 的 API， 只 有 10KB， 是 目前 最 小 的 可 用 地 图 库 。 它 也 是 开源 项 目 ， 有 强大 的 社区 支 
持 ， 是 在 网 站 中 整合 地 图 应 用 的 理想 选择 。 

(3)Leaflet。 是 小 型 化 的 地 图 框架 ， 通 过 小 型 化 和 轻 量化 来 满足 移动 网 页 的 需要 。 


6.3.4 时 间 线 工 具 
时 间 线 是 表现 数据 在 时 间 维 度 的 演变 的 有 效 方 式 。 它 通过 互联 网 技术 ， 依 据 时 间 顺 

















序 ， 把 一 方面 或 多 方面 的 事件 串联 起 来 ， 形 成 相对 完整 的 记录 体系 ， 再 运用 图 文 的 形式 
呈现 给 用 户 。 时 间 线 可 以 运用 于 不 同 领域 ， 其 最 大 的 作用 就 是 使 过 去 的 事物 系统 化 、 完 
整 化 和 精确 化 。 自 2012 年 Facebook 在 F8 开发 者 大 会 上 发 布 了 以 时 间 线 格式 组 织 内 容 的 
功能 后 ， 时 间 线 工具 开始 在 国内 外 社交 网 站 中 流行 起 来 。 常 见 的 时 间 线 工具 如 下 。 

(1)Timetoast。 在 线 创 作 基 于 时 间 轴 事件 记载 服务 的 网 站 ， 提 供 个 性 化 的 时 间 线 服 
务 ， 可 以 用 不 同 的 时 间 线 记录 用 户 某 个 方面 的 发 展 历程 、 心 路 历程 和 进程 等 。Timetoast 
基于 Flash 平台 ,可 以 在 类 似 Flash 时 间 轴 上 任意 加 入 事件 ， 定 义 每 个 事件 的 时 间 、 名 
称 、 图 像 和 描述 ， 最终 在 时 间 轴 上 显示 事件 在 时 间 序 列 上 的 发 展 情况 。 其 事件 显示 和 切 
换 十 分 流畅 ， 通 过 单 击 鼠 标 可 显示 相关 事件 ， 操 作 简 单 。 

(2)xTimeline。 一 个 免费 的 绘制 时 间 线 的 在 线 工 具 网 站 ， 操作 简便 ， 用 户 通 过 添加 事 
件 日 志 构建 时 间 表 ， 同 时 可 给 日 志 配 上 相应 的 图 表 。 相同 se 的 是 ，xTimeline 
是 一 个 社区 类 型 的 时 间 轴 网 站 ， Oe 5， 除了 可 以 分 
享 和 评论 时 间 轴 外 ， 还 可 以 建立 组 群 ， RN 


6.3.5 高 级 分 析 工 具 


如 果 要 进行 专业 的 数据 分 析 ， 采 用 复杂 OY. 就 必须 使 用 高 级 分 析 工 具 。 常 
用 的 高 级 分 析 工 具 如 下 。 Es 


(1)R。 属 于 GNU 操作 系统 的 一 免费 、 源 代码 开放 的 软 回回 
件 ， 是 一 ee -A 这 度 较 高 。R 和 
[ 上 

制 回 
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套件 包括 数据 存 nh A 能 的 数 









Wa R 2 图 功能 、 


组 运算 工具 、 完 整 连贯 的 | 
简便 而 强大 的 编程 可 操纵 数据 的 输 i 循 【TR 可视化 举例 】 
环 及 用 户 自 定 》 re 上 5 分 析 。 








(2) WekaSNVF 的 基于 Java 、 开 源 的 机 器 学 习 和 数据 挖掘 软件 ， 不 但 
可 以 进行 数据 ， 还 可 以 生成 一 些 简 单 图 表 。 
(3)Gephi。 一 款 开 源 、 免 费 、 跨 平台 、 基 于 JVM 的 复杂 网 络 分 析 软 件 ， 可 用 于 探索 
性 数据 分 析 、 链 接 分 析 、 社 交 网 络 分 析 和 生物 网 络 分 析 等 。 


6.4 大 数据 可 视 化 的 发 展 2 


大 数据 可 视 化 能 够 增强 数据 的 旦 现 效果 ， 方 便 用 户 以 更 加 直观 的 
方式 观察 数据 ， 进 而 发 现 数据 中 隐藏 的 信息 。 基 于 Web 的 可 视 化 可 以 【大 数据 可 视 化 
使 用 户 及 时 获取 动态 数据 并 实现 数据 的 实时 可 视 化 。 前 面 已 经 介绍 了 展示 系统 
可 视 化 的 概念 、 技 术 和 相应 的 工具 ， 接 下 来 将 曾 述 可 视 化 面临 的 挑战 、 发 展 方向 和 未 来 
的 应 用 。 


6.4.1 大 数据 可 视 化 面临 的 挑战 


随 着 大 数据 时 代 的 到 来 大 数据 可 视 化 日 益 受 到 关注 ,可视化 技术 也 日 益 成 熟 。 然 而 ， 
大 数据 可 视 化 仍 存在 着 很 多 问题 ， 并 面临 着 巨大 的 挑战 。 




















大 数据 可 视 化 存在 以 下 问题 。 

(1) 视 觉 噪声 。 在 数据 集中 ， 大 多 数 数据 具有 极 强 的 相关 性 ， 无 法 将 其 分 离 作为 独立 
的 对 象 显示 。 
(2) 信 息 丢 失 。 虽 然 可 以 采用 减少 可 视 数 据 集 的 方法 ,但 会 导致 信息 丢失 。 

(3) 大 型 图 像 感 知 。 大 数据 可 视 化 不 仅 受 限于 设备 的 长 度 比 和 分 辩 率 ， 也 受 限于 现实 
中 用 户 的 感受 。 
(4) 高 速 图 像 变 换 。 用 户 虽 然 能 够 观察 数据 ， 却 不 能 对 数据 强度 变化 作出 反应 

(5) 高 性 能 要 求 。 静 态 可 视 化 对 性 能 要 求 不 高 ， 因 为 可 视 化 速度 较 低 ; 然而 动态 可 视 
化 对 性 能 要 求 会 比较 高 。 

大 数据 可 视 化 面临 以 下 挑战 。 
| 




















软件 和 工具 运行 效率 不 高 ， 需 探索 全 新 思路 解决 该 问题 。 
(2) 在 数据 获取 与 分 析 处 理 过 程 中 ， 易 产生 数据 质量 
性 问题 。 
(3) 数 据 快速 动态 变化 ， 震 
(4) 面 临 复杂 高 维 数据 ， RD 
(5) 多 源 数据 的 类 型 和 结构 各 异 ， 已 


和 特别 关注 数据 的 不 确定 







数据 的 实时 分 析 与 可 视 化 方法 。 
本 分 析 为 主 ， 分 析 能 力 不 足 。 
结构 化 数据 和 蜡 构 数据 的 支持 不 足 ， 








网 络 数据 可 视 化 分 析 是 推理 求解 异 构 TWO 

这 五 方面 的 挑战 逐渐 成 为 今 0 与 方向 ， 本本 有 和 
一 步 开展 研究 ， We us 得 更 大 突 

6.4.2 vaughn 

pds ey 展 方向 如 下 。 

(1) 多 视 oor 通过 专业 的 统计 数据 分 析 系统 设计 方 
法 ， 理 清海 莉 标 与 维度 ， 按 主题 、 成 体系 呈现 复杂 数据 背后 的 联系 ; 整合 多 个 视 


图 ， 展 示 同 一 数据 在 不 同 维度 下 呈现 的 数据 背后 的 规律 ， 帮 助 用 户 从 不 同 角度 分 析 数 据 、 
缩小 答案 的 范围 、 展 示 数 据 的 不 同 影响 等 。 具 备 显示 结果 的 形象 性 和 使 用 过 程 的 互动 性 ， 
便于 用 户 及 时 捕捉 其 关注 的 数据 信息 。 

(2) 所 有 数据 视图 交互 联动 。 将 数据 图 片 转化 为 数据 查询 ， 每 一 项 数据 在 不 同 维度 指 
标 下 交互 联动 ， 展 示 数 据 在 不 同 角度 的 走势 、 比 例 和 关系 ,帮助 用 户 识别 趋势 、 发 现 数 
据 背 后 的 规律 。 除 了 原 有 的 饼 状 图 、 柱 形 图 、 热 图 和 地 理 信息 图 等 数据 展现 方式 外 ， 还 
可 以 通过 图 像 的 颜色 、 亮 度 、 大 小 、 形 状 和 运动 趋势 等 分 析 一 系列 图 形 的 数据 ， 帮 助 用 
户 通过 交互 挖掘 数据 之 间 的 关联 ;并 支持 数据 的 上 钻 下 探 、 多 维 并 行 分 析 ， 利 用 数据 推 
动 决策 。 
(3) 强 大 的 大 屏 展示 功能 。 支 持 主 从 屏 联动 、 多 屏 联 动 和 自动 翻 屏 等 大 屏 展示 功能 ， 
可 实现 高 达 上 万 分 辩 率 的 超 清 输 出 ， 并 且 具 备 优异 的 显示 加 速 性 能 ， 支 持 触 控 交互 ， 满 
足 用 户 的 不 同 展示 需求 。 可 以 将 同一 主题 下 的 多 种 形式 的 数据 综合 展现 在 同一 个 或 分 别 
展示 在 几 个 高 分 辩 率 界面 中 ,实现 多 种 数据 的 同步 跟踪 、 切 换 ; 同时 提供 触 控 屏 ， 作 为 
大 屏 监控 内 容 的 中 控 台 ,通过 简单 的 触 控 操作 即 可 在 大 屏幕 上 实现 内 容 的 查询 、 缩 放 和 


























切换 ， 全 方位 展示 企业 信息 化 水 准 。 
6.4.3 大 数据 可 视 化 未 来 的 应 用 


大 数据 可 视 化 未 来 的 应 用 包括 以 下 三 个 方面 。 

(1) 设 备 仿真 运行 可 视 化 。 通 过 图 像 、 三 维 动画 及 计算 机 程控 技术 与 实体 模型 融合 ， 
实现 对 设备 的 可 视 化 表达 ， 使 管理 者 对 其 所 管理 的 设备 有 形象 具体 的 概念 ， 对 设备 所 处 
的 位 置 、 外 形 和 所 有 参数 一 目 了 然 ， 降 低 管理 者 的 劳动 强度 ， 提 高 管理 效率 和 管理 水 平 ， 
是 “工业 4.0” 涉 及 的 “智能 生产 ”的 具体 应 用 之 一 。 

(2) 数 据 统计 分 析 可 视 化 。 是 目前 被 提 及 最 多 的 应 用 ， 可 用 于 商业 智能 、 政 府 决策 、 
公众 服务 和 市 场 营销 等 领域 。 例 如 ， 精 准 营销 可 视 化 中 通过 分 析 与 挖掘 用 户 群 的 文化 观 
念 、 消 费 收入 、 消 费 习 惯 和 生活 方式 等 数据 ， 将 用 户 群 体 划 分 为 更 加 精细 的 类 别 。 根 据 
不 同 的 用 户 群 ， 制 定 不 同 的 品牌 推广 战略 和 营销 策略 ， 提 高 忠诚 度 ， 培 养 能 为 企 
业 带 来 高 价值 的 潜在 客户 ， 提 升 市 场 占 有 率 。 

(3) 宏 观 态势 可 视 化 。 宏 观 态势 可 视 化 是 在 特定 
而 不 断 变化 的 目标 实体 ， 最 终 展 示 整 体态 势 。 此 : 
真 环境 、 数 据 多 维度 的 积累 ， 可 以 直观 、 oO 
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、 认 知 和 理解 随时 间 推 移 
可 视 化 应 用 通过 建立 复杂 的 仿 
展示 出 宏观 态势 ， 从 而 使 非 专业 





结 


了 大 数据 可 视 化 面临 的 未 来 的 发 展 方向 可 视 化 在 大 数据 分 析 中 具有 极其 
重要 的 作用 ， 万 其 度 而 言 ， 是 提 河 用 沈 呈 锯 分 析 效 率 的 有 效 手 段 。 通 过 本 章 的 
学 习 ， 可 以 er a 
理论 基础 。 EN 


~ 
篇 关键 术语 


Tt nn, cn 技术 和 工具 ， 同 时 分 析 


(1) 数 据 可 视 化 (2) 平 行 坐 标 法 (3) 信 息 图 表 工 具 (4) 时 间 线 工具 
(5) 地 图 工具 (6) 桑 基 图 (7) 漏 斗 图 (8) 树 状 图 
习 题 

1. 选择 题 
(DC ) 通 常用 于 表示 层级 、 上 下 级 、 包 含 和 被 包含 关系 。 

A. 折线 图 B. 树 状 图 

C. 柱状 图 D. 条 形 图 
(2) 下 列 ( ) 的 特征 是 始末 端的 分 支 宽度 总 和 相等 。 


A. 桑 基 图 B. 折线 图 





+ 


C. 条 形 图 D. 树 状 图 
(3)( ”) 能 够 展示 每 一 数值 相对 于 总 数值 的 大 小 ， 同 时 强调 每 个 数值 。 
A. 复合 饼 图 B. 分 离 型 饼 图 
C. 普通 饼 图 D. 散 型 饼 图 
(4) 散 点 图 的 类 型 不 包括 ( Ps 
A. 散 点 图 矩阵 B，ArcGIS 散 点 图 
C. 三 维 散 点 图 D. 复合 散 点 图 


(5) 柱 状 图 和 条 形 图 的 本 质 是 相同 的 ， 只 是 在 z-y 坐标 系 上 的 分 布 不 同 。 在 延伸 方向 
上 ， 柱 状 图 为 ( ) 延 伸 。 
A. 水 平 B. 斜 上 方 
C. 垂直 D. 斜 下方 
(6) 以 下 ( ) 是 大 数据 可 视 化 技术 。 
A. 基于 图 形 的 技术 B. 2 
C. 平行 坐标 法 D. 以 秆 
(7)( ?是 最 简单 的 大 数据 可 视 化 工具 。 六 
A. Excel 
C. Google Chart API RY ‘Google Fusion Tables 
(8) 以 下 ( ) 是 地 图 工具 。 
A. Tableau B. D3 可 


C，Google Fusion D. “Tn 
2. 判断 是 YU el 
hd ne 新 入 化 分 析 。 
i i 


( 
{ 
(3) 大 数据 可 视 内 中 的 数据 类 型 只 和 数 据 。 ( 
(4) 大 数 化 是 大 数据 分 析 的 最 后 纪 最 重要 的 一 环 。 ( 

(5 数据 的 复杂 性 和 多 样 性 意味 着 需要 对 更 多 的 多 维 数据 进行 处 理 和 分 析 。 

(6) 散 点 图 是 指 在 分 析 中 数据 点 在 直角 坐标 系 平面 上 的 分 布 图 ， 能 够 表示 因 变 量 随 自 
变量 变化 的 大 致 趋势 。 ( ) 

(7) 柱 状 图 和 条 形 图 的 水质 是 相同 的 在 z-y 坐标 系 上 的 分 布 也 是 相同 的 。 (  ) 

(8) 条 形 图 包括 单 式 条 形 图 和 复式 条 形 图 。 ( ) 

3, 简 答 题 

(1) 简 述 数据 可 视 化 的 应 用 标准 。 

(2) 大 数据 可 视 化 的 具体 作用 是 什么 ? 

(3) 简 述 漏斗 图 的 优点 。 

(4) 散 点 图 的 类 型 有 哪些 ? 回 :oj 回 

(5) 简 述 大 数据 可 视 化 存在 的 问题 。 : a 

(6) 大 数据 可 视 化 技术 的 发 展 方向 有 哪些 ? 站 

(7) 简 述 大 数据 可 视 化 未 来 的 应 用 。 

(8) 常 用 的 高 级 分 析 工 具有 哪些 ? 6 
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大 数据 在 金融 领域 的 应 用 











大 数据 在 互联 网 领域 的 应 用 








大 数据 营销 

















大 数据 在 生物 医学 领域 的 应 用 
智慧 医疗 

















大 数据 在 汽 
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大 数据 广泛 ,涉及 人 们 日 常 


新 型 产业 。 基 于 大 数据 的 推荐 预测 算法 流行 开 来 ,数据 科学 逐渐 兴起 ， 





慧 物流 、 汽 车 行业 、 


7.1 





金融 行业 由 于 其 


生活 的 各 个 领域 ， 大 数据 产业 已 成 为 战略 性 的 
大 数据 的 成 功 应 
用 将 产生 重大 价值 。 本 章 主要 介绍 大 数据 在 金融 领域 、 互 联网 领域 、 生 物 医学 领域 、 智 





公共 管理 及 教育 行业 中 的 应 用 。 
大 数据 在 金融 领域 的 应 用 


自身 行业 特性 ,在 长 期 的 业务 开展 过 程 中 积累 了 海量 的 高 价值 数据 ， 因 


此 在 大 数据 的 应 用 方面 具备 得 天 独 厚 的 优势 。 以 数据 强度 居于 众多 行业 之 首 的 银行 为 例 ， 据 
统计 ， 银 行 每 创造 100 万 美元 的 收入 ,会 产生 820GB 存储 数据 。 面 对 种 类 如 此 繁多 且 数 量 
庞大 的 数据 ， 金 融 行业 应 该 如 何 分 类 、 整 合 、 分 析 和 应 用 ， 是 一 个 大 问题 。 从 业务 角度 来 
看 ， 大 数据 在 金融 领域 的 应 用 可 以 分 为 客户 管理 、 风 险 管控 和 运营 优化 三 个 方面 。 


7.1.1 大 数据 与 客户 管理 





银行 作为 金融 行业 的 重要 组 成 部 分 ， 竞 争 日 益 激 烈 ， 客 户 服务 的 质量 是 关系 到 银行 发 展 








的 重要 














素 , 但 客户 可 能 根据 年 费 、 服 务 、 优 惠 条 件 等 因素 而 不 断 流动 。 在 大 数据 金融 时 


代 ， 客 户 已 被 高 度数 据 化 ， 随 着 大 数据 技术 的 进步 ， 成 千 上 万 的 客户 都 能 够 被 精准 细 分 与 定 
位 ， 真 正 实现 以 客户 为 中 心 的 高 度 个 性 化 服务 。 应 用 大 数据 进行 客户 管理 可 分 为 客户 洞察 、 
产品 购买 响应 预测 、 关 联 分 析 和 客户 价值 潜力 分 析 四 个 方面 ， 见 表 7. 1。 








表 7.1 大 数据 在 客户 管理 中 的 应 用 














应 用 描 述 

应 用 预测 算法 ， 建 立 客户 流失 预测 模型 ， 提 前 识别 流失 可 能 性 高 

客户 流失 预测 的 客户 ， 预 测 可 能 导致 客户 流失 的 原因 。 人 金融 企业 根据 客户 流失 预 

与 客户 保持 测 结果 ， 结 合 客户 发 展 潜力 和 贡献 度 ， 尽 早 采取 干预 措施 ， 尽 可 能 
地 留 住 客户 

交叉 销售 与 TT 

ee 品 、 交 易 的 时 间 及 购买 产品 间 的 行 分 析 ， 借助 关联 分 析 成 
果 向 客户 销售 其 他 产品 

客户 洞察 360* 客 户 除了 行业 本 身 的 交易 过 对 外 部 的 社交 网 络 数据 进行 分 

析 ， 在 社交 网 络 上 法 行 画像 ， 同 时 考虑 客户 的 属性 和 交易 行 

全 景 视图 图 








增强 客户 细 分 He Ee 
窒 户 细 分 模型 ， 最 后 


为 ,形成 A 
性 划分 客户 集合 ， 即 将 客户 分 为 具有 不 同 需求 和 特征 


以 达到 区 别 营销 的 目的 。 客 户 细 分 的 工作 步骤 首先 
Tr 能 反映 客户 特征 外 部 数据 ， 然 此 基础 上 ， 根 
业务 目的 ， 以 获取 可 维护 的 数据 为 细 分 维度 ， 设 计 
细 分 客户 ， 利 用 细 分 结果 验证 和 修订 














搜 








2 
产品 购买 符 应 预测 


细 分 变量 ， 人 最 终 的 客户 细 分 结果 
mae 东信 息 、 在 金融 机 构 的 相关 历史 记录 和 其 他 相 


关 信 息 ， 产品 购买 响应 模型 ， 对 客户 接受 某 产品 的 概率 进 
Ne 局 扣 计 抽 本 ， 全 
融 机 构 可 以 选择 该 概率 超过 一 定 程度 的 客户 为 营销 对 象 ， 从 而 提高 
营销 成 功率 、 降 低 营 销 成 本 





从 工商 局 、 交 易 所 、 证 监 会 、 银 监 会 、 安 全 部 门 、 公 安 部 门 发 布 
的 监管 文件 ， 新闻、 出 版 物 、 社 交 媒 体 数 据 中 抓 取 到 的 企业 间 关 





Bd 系 、 交 易 对 手 风 险 暴 露 及 风险 事件 信息 ， 全 面 刻画 行业 的 社交 网 络 
图 并 应 用 于 风险 管理 、 营 销 等 不 同业 务 领域 
¥ a 的 关键 社会 进行 结合 
a 选取 客户 的 关键 社会 属性 并 进行 分 群 及 轿子 分 析 ， 结合 历 史 数 


据 ， 预 测 客户 的 潜在 价值 并 计算 价值 提升 指数 








鸭 >》 【站 读 来 例 7-1] 


恒 丰 银行 基于 大 数据 的 客户 关系 管理 系统 
近年 来 ， 恒 丰 银 行 发 展 稳健 。 截 至 2016 年 年 末 ， 恒 丰 银行 资产 规模 已 突破 1.2 万 亿 








元 ， 是 2013 年 年 末 的 1. 6 倍 ; 各 项 存款 余额 为 7682 亿 元 ， 各 项 贷款 余额 为 4252 亿 元 ， 
均 比 2013 年 年 末 翻 了 一 番 。 服 务 组 织 架构 不 断 完善 ， 有 分 支 机 构 306 家 。 不 断 增 加 的 分 
支 机 构 使 得 建设 基于 大 数据 的 客户 关系 管理 系统 迫在眉睫 ， 恒 丰 银 行 以 “大 力 发 展 企业 
金融 业务 ,聚焦 重点 行业 核心 客户 ”为 服务 宗旨 ,实现 自 上 而 下 进行 客户 定位 与 营销 指 
引 的 目标 。 恒 丰 银 行 于 2015 年 10 月 启动 客户 关系 管理 (Customer Managed Relationship， 
CMR) 系 统 的 规划 设计 ， 面 对 恒 丰 银行 的 业务 发 展 需要 和 业务 团队 对 客户 营销 方面 的 要 
求 ， 此 项 目 自立 项 起 就 面临 着 来 自 业 务 和 技术 两 方面 的 巨大 挑战 。 

1. 业务 方面 面临 的 挑战 

恒 丰 银行 CRM 系统 要 打破 以 往 传统 业务 和 数据 模式 ， 实 现 传统 模式 不 能 提供 或 不 能 实 
时 处 理 的 信息 和 功能 。360 客户 视图 需要 整合 内 外 部 数据 ， 提 供 更 完善 的 客户 全 景 视图 ， 实 
现 对 客户 的 深度 洞察 ， 这 需要 实时 加 工大 量 交易 数据 并 提供 可 靠 的 误 易 、 产 品 、 风 险 预 警 等 
多 种 信息 提醒 ， 使 业务 人 员 能 够 及 时 预 判 客户 的 资产 变化 和 风 ies 
统 提供 智能 的 客户 推荐 与 产品 推荐 ,提高 获 客 率 和 产品 持 有 会 地 理 信息 ， 为 营销 人 员 
经 常 性 的 外 勤 任务 提供 方便 的 签到 、 拜 访 记 录 管 理 等 5 A 现任 务 记录 的 移动 化 。 

2, 技术 方面 面临 的 挑战 

恒 丰 银行 CRM 系统 要 具有 高 实时 性 、 高 并 可 用 、 可 扩展 性 强 和 便于 维护 等 特 
点 ， 又 要 考虑 由 处 理 结 构 化 数据 向 处 理 据 、 非 结构 化 数据 转变 的 要 求 。CRM 
系统 需 支持 移动 设备 、 个 人 计算 机 、 种 方式 的 访问 ， 能够 提供 可 适 配 、 客 户 体 
验 度 高 的 用 户 操作 界面 ; i 0 
并 通过 实时 处 理 海量 数据 获取 业务 信息 和 风险 需 支 持 分 布 式 容器 化 部 署 
支持 横向 扩展 和 纵向 扩展 度 扩 展 系 统 性 能 能 力 ; 需 具 备 处 理 海量 半 结 
构 化 数据 、 Ct 运用 机 器 学 i de 
及 推荐 信息 。 ”及 、 效 

3, 实施 这 中 ys 季 经 

量 丰 银 丰 系统 采用 MVVM+ 微 服务 的 技术 架构 ， 前 端 集成 了 Bootstrap、Angluar- 
JS、ECharts 、WebSocket 等 技术 ,使 用 Scala 语言 的 Xitrum 框架 搭建 RESTful API， 解 耦 客 
户 端 和 服务 端 接口 ， 使 系统 易于 扩展 和 维护 。 服 务 端 使 用 Akka 框架 处 理 复杂 逻辑 及 异步 通 
信 ， 提 高 系统 的 容错 性 和 可 扩展 性 ， 使 系统 能 够 支持 大 量 用 户 高 并 发 、 高 流量 的 服务 请 求 。 
采用 “两 地 三 中 心 ” 的 OpenStack 云 环境 部 署 ， 可 以 支持 弹性 部 署 与 集群 部 署 模式 ， 实 现 弹 
性 扩容 和 差异 化 的 硬件 资源 配置 ， 以 降低 运行 和 维护 成 本 及 人 力 成 本 。 

恒 丰 银行 CRM 系统 依托 行内 大 数据 平台 尝试 业务 创新 ， 致 力 于 向 业务 人 员 提 供 准 
确 、 及 时 、 智 能 的 营销 信息 和 营销 机 会 ， 主要 如 下 。 

(1) 恒 丰 银 行 CRM 系统 基于 数据 挖 据 、 文 本 处 理 、 关 系 网 络 分 析 、 实 时 流 处 理 等 大 
数据 技术 ， 通过 对 客户 行内 外 数据 的 实时 采集 和 智能 分 析 ， 为 业务 人 员 提 供 客 户 行为 类 、 
预测 类 及 生命 周期 类 的 营销 响应 信息 。 

(2) 恒 丰 银 行 CRM 系统 创建 了 智能 产品 推荐 模型 ,为 客户 经 理 正 确 评估 客户 价值 、 
获取 潜在 价值 客户 、 开 发 集团 客户 、 实 现 精准 营销 提供 信息 支撑 。 

(3) 恒 丰 银 行 CRM 系统 借助 大 数据 平台 ,全 面 整合 工商 、 企 业 和 与 情 、 互 联网 行为 等 
外 部 公开 信息 ， 构 建 了 更 清晰 全 面 的 客户 视图 ， 使 客户 经 理 能 够 敏锐 地 掌握 企业 经 营 动 













态 ， 及 时 发 现在 重大 技术 改革 、 兼 并 重组 、 首 次 公开 幕 股 (Initial Public Offerings，IPO) 
经 济 活动 中 冀 藏 的 客户 需求 和 金融 服务 机 会 。 恒 丰 银 行 CRM 系统 架构 如 图 7. 1 所 示 。 





图 7.1 恒 丰 银行 CRM 系统 架构 


恒 丰 银行 CRM 系统 自 实施 以 来 ,采用 实时 流 处 理 技术 实现 了 全 渠道 信息 的 实时 高 效 
整合 ， 充 分 运用 智能 技术 实现 客户 营销 机 会 预测 、 客 户 风 险 预 警 ， 提 升 客户 服务 体验 ， 
实现 快速 的 客户 风险 应 对 功能 。 客 户 经 理 通过 产品 分 析 生 成 的 流失 客户 预警 来 挽留 客户 ， 
降低 了 客户 流失 率 ; 同时 通过 产品 推荐 和 智能 挠 客 ， 提 高 了 新 客户 增长 率 、 产 品 持 有 率 、 
价值 客户 增长 率 和 重点 产品 持 有 率 。 

(资料 来 源 : http: Wwww. sohu. com/a/150376929 _ 400678，2017-06-20. ) 


7.1.2 大 数据 与 风险 管控 
金融 行业 的 风险 管控 包括 三 个 方面 : 信贷 风险 管理 、 外 部 风险 预警 和 打击 金融 犯罪 。 

















1. 信贷 风险 管理 


信贷 风险 是 指 信贷 放出 后 本 金 和 利息 可 能 产生 损失 的 风险 ， 它 一 
直 是 金融 行业 需要 努力 解决 的 重要 问题 之 一 。 大 数据 技术 能 够 助力 金 
融 行业 的 信贷 风险 分 析 ， 通 过 收集 和 分 析 大 量 用 户 的 日 常 交 易 行为 数 【 “互联 网 金融 ”成 
据 ， 判 断 其 业务 范畴 、 经 营 状况 、 信 用 状况 、 用 户 定位 、 资 金 需求 和 网络 讨 论 热 词 了 

行业 发 展 趋势 ， 解 决 由 于 财务 制度 不 健全 而 无 法 了 解 真实 经 营 状况 的 难题 ， 让 金融 机 构 
放贷 有 信心 、 管 理 有 保障 。 对 个 人 贷款 者 而 言 ， 金 融 行 业 可 以 充分 利用 申请 者 的 社交 网 
络 数据 分 析 得 出 信用 评分 。 例 如 ,美国 的 Movenbank 移动 银行 、ZestFinance 金融 科技 公 

司 和 德国 Kreditech 贷款 评分 公司 等 新 型 中 介 机 构 ， 都 在 积极 尝试 利用 社交 网 络 数据 构建 
个 人 信用 分 析 平 台 ， 将 社交 网 络 资料 转化 为 个 人 互联 网 信用 。 他 们 说 服 LinkedIn 和 Face- 
book 等 社交 网 络 对 金融 行业 开放 用 户 的 相关 资料 和 用 户 在 各 个 栅 丫 的 活动 记录 ， 并 以 此 






































作为 客户 信用 评分 的 重要 依据 。 图 7. 2 是 ZestFinance 公司 相关 性 原则 所 采用 
的 信贷 风险 评估 方法 。 和 包括 银行 和 信用 卡 数据 ， 


又 包括 法 律 记录 、 搬 迁 次 数 等 非 传统 数据 。 


> 


传统 信贷 数据 





图 7.2 ZestFinance 公司 基于 大 数据 相关 性 原则 所 采用 的 信贷 风险 评估 方法 


大 数据 结合 互联 网 让 传统 信贷 突破 了 信用 机 制 的 约束 和 借贷 双方 之 间 的 距离 隔 闵 ， 
利用 大 数据 平台 实现 了 信贷 扁平 化 。 大 数据 在 金融 领域 的 应 用 越 来 越 广泛 ， 通 过 建立 集 
约 化 的 流程 化 动态 管理 方式 ,提高 金融 的 透明 度 , 实现 资金 与 需求 的 精细 化 匹配 ， 并 最 
终 建立 良好 的 信用 生态 。 大 数据 是 一 种 推动 金融 自身 优化 、 改 良 的 革命 性 工具 ， 而 信贷 
扁平 化 则 是 金融 服务 效率 提升 的 体现 。 














2. 外 部 风险 预警 

外 部 风险 预警 是 指 通过 集成 宏观 经 济 信息 、 行 业 信息 、 客 户 信息 、 财 务 信息 、 历 史 
交易 信息 、 金 融 行业 内 部 信息 和 从 外 部 非 结构 化 数据 (如 法 院 、 税 务 局 、 小 贷 公 司 黑 名 
单 ) 中 提取 到 的 有 效 信息 ， 根 据 信 息 组 合 将 数据 细 分 为 不 同类 别 ， 进 行 预警 和 评分 。 外 部 
风险 预警 系统 涵盖 了 数据 收集 、 数 据 提取 、 数 据 分析 和 数据 结果 四 个 环节 ， 因 此 该 系统 





可 分 为 四 个 层级 : 数据 管理 层 、 数 据 整 合 层 、 数 据 分 析 层 和 数据 结果 层 。 
(1) 数 据 管理 层 。 风 险 预 警 系 统 以 大 数据 为 基础 ， 数 据 作为 系统 的 核心 部 分 ， 是 关键 
环节 。 在 建立 以 数据 为 中 心 的 金融 风险 预警 系统 的 过 程 中 ， 必 须 健 全 为 金融 行业 服务 的 
数据 管理 机 制 ， 建 立 与 行业 规模 相 匹配 的 数据 中 心 ， 收集 、 人 整理、 加工、 存储 数据 ， 以 
便 其 他 层级 用 户 使 用 。 
02) 数据 整合 层 。 数 据 整合 是 保证 分 析 结 a 











融 大 数据 中 实现 金融 风险 预警 ,必须 对 金融 风险 有 透彻 自 认识 。 从 金融 风险 的 定 
义 出 发 ， 确 定 分 析 需 求 ， 重 新 整合 数据 ， 提 取 与 需求 对 砚 的 分 析 结果 。 
(3) 数 据 分 析 层 。 数 据 分 析 是 金融 风险 管理 的 实施 手段 。 全 面 的 数据 分 析 层 应 包 
括 现行 的 指标 体系 、 统 计 模型 、 人 工 智能 等 
(4) 数 据 结果 层 。 te < 次 预警 都 必须 结合 经 营 管理 状况 、 外 部 





经 济 运 行 环境 及 行业 背景 等 进行 分 析 者 提供 更 完整 的 决策 依据 ， 从 而 减少 为 规 


避风 险 产生 的 损失 。 x 志 
3. 打击 金融 犯罪 小 


金融 方式 日 益 增 et 和 同时 让 一 些 犯 罪 分 子 有 机 可 乘 。 
ep tet 融 系统 进行 ee 
me 隐瞒 违法 资金 的 性 质 ， 使 其 在 形式 上 合法 化 的 行为 。 洗 钱 
极 大 地 妨碍 了 动 法 公正 ， 破 坏 了 金融 管理 秩序 ， 使 金融 体系 遭受 不 良 影响 。 如 今 的 洗钱 
犯罪 已 经 出 现 向 信息 化 支付 工具 转移 的 趋势 ， 据 统计 ， 全 世界 每 年 洗钱 的 非法 收入 占 全 
球 生产 总 值 (Gross Domestic Product，GDP) 的 2% ~5%。 可 想 而 知 ， 洗 钱 涉及 的 犯罪 金 
额 非常 庞大 ， 如 何 快 速 精确 地 打击 洗钱 行为 显得 尤为 重要 。 

反 洗钱 需 要 通过 追溯 钱 的 来 源 寻 找 与 可 疑 资产 相关 的 交易 。 相 较 于 传统 的 检测 手段 ， 
大 数据 能 够 通过 完整 的 全 局 数据 来 分 析 和 预测 ， 能 够 快速 高 效 地 识别 可 疑 交易 。 传 统 的 
识别 技术 基于 银行 内 部 的 信息 系统 ， 且 技术 指标 各 不 相同 ， 极 易 形 成 一 个 封闭 的 信息 
孤岛 。 利 用 这 种 传统 的 关系 型 数据 库 和 挖掘 技术 构建 反 洗钱 平台 , 会 遇 到 数据 量 大 、 
数据 格式 不 一 致 、 无 法 存储 和 处 理 等 技术 难点 ， 拖 慢 反 洗钱 的 处 理 速度 ， 大 大 影响 时 
效 性 。 

应 用 大 数据 技术 使 不 同 结构 的 数据 被 完整 利用 ,通过 快速 处 理 非 结 构 化 数据 ， 高 效 
整合 银行 内 部 的 数据 资源 ， 大幅 增 加 反 洗 钱 的 力度 、 提 高 效率 。 交 易 监 控 及 反 欺 诈 系统 
是 一 套 基于 大 数据 分 析 的 风险 监控 系统 ， 其 工作 原理 如 图 7. 3 所 示 。 该 系统 采用 分 布 流 式 
计算 平台 架构 ,通过 机 器 学 习 、 神 经 网 络 等 数据 挖掘 技术 进行 智能 分 析 ， 可 以 有 效 地 对 


















































| 知 章 大 六 


银行 交易 数据 进行 实时 风险 监控 ,并 依据 风险 级 别 进 行 决策 ， 同 时 提供 信息 共享 平台 ， 
在 金融 机 构 、 公 安 机 关 、 人 民法 院 、 监 管 机 构 等 机 构 间 实现 规则 、 案 件 、 黑 名 单 等 信息 
的 共享 。 











7.1.3 大 数据 与 运营 优化 
i 金融 信息 呈 爆 炸 式 增长 。 当 前 利用 外 购 


人 
图 7.3 eg 


资讯 商 的 咨询 服务 或 采用 资讯 商 的 定 程度 上 满足 金融 公司 和 投资 者 对 金融 
信息 的 一 般 需求 及 公司 运营 中 New 求 。 i 的 资讯 产品 不 能 满足 日 益 增 


你 


tsb ed 需求 。 ae ;A 当 优 化 中 的 应 用 有 网 点 
营 优化 、 mo 、 历 史 数 pe 、 系 统 日 志 维 护 和 系统 故障 分 


i 2 
、， 表 7.2 大 优化 中 的 应 用 


应 用 描 述 


综合 考虑 金融 行业 的 业务 量 分 布 、 物 理 设施 的 限制 等 因素 ， 以 达到 最 优化 金 
网 点 运营 优化 融 行业 的 网 点 设置 、 窗 口 资源 和 人 力 资源 ， 最 终 实现 降低 运营 成 本 、 提 升 服务 
水 平和 员工 满意 度 的 目标 








通过 对 驾驶 人 总 行驶 里 程 、 日 行驶 时 间 、 急 刹车 次 数 、 急 加 速 次 数 等 驾驶 行 
为 进行 分 析 ， 帮 助 保险 公司 全 面 了 解 驾驶 人 的 驾驶 习惯 和 驾驶 行为 ， 有 利于 保 
险 公司 发 展 优质 客户 ,提供 不 同类 型 的 保险 产品 
历史 数据 应 用 分 布 式 数据 存储 实现 低 成 本 存储 金融 行业 的 海量 历史 数据 、 高 效率 查 
保存 与 管理 询 与 应 用 历史 数据 

从 金融 行业 的 各 种 源 系统 上 收集 日 志 ， 存 储 到 中 央 存储 系统 ,便于 进行 集中 
统计 分 析 和 处 理 

基于 设备 监控 进行 大 数据 分 析 ， 实现 智能 化 故障 原因 分 析 、 人 性 能 容量 动态 阔 
系统 故障 分 析 值 分 析 、 实 时 交易 路 由 分 析 、 业 务 交 易 实时 跟踪 、 面 向 业务 服务 的 全 方位 监 
控 、 可 量化 的 业务 影响 性 分 析 和 实时 业务 全 景 分 析 


车 联网 /传感器 
数据 分 析 








系统 日 志 维护 














7.2 大 数据 在 互联 网 领域 的 应 用 





在 互联 网 高 速 发 展 的 今天 ， 如 何 将 大 数据 与 互联 网 结合 起 来 ， 如 何 使 大 数据 在 互联 
网 中 得 到 良好 的 应 用 ,以 便于 帮助 互联 网 进行 决策 ,依旧 需要 众多 科研 人 员 的 努力 。 大 
数据 在 互联 网 领域 的 应 用 主要 体现 在 电子 商务 、 社 交 媒 体 和 零售 行业 三 方面 。 


7.2.1 大 数据 与 电子 商务 


爆炸 式 增长 的 数据 已 成 为 电子 商务 行业 具有 优势 和 商业 价值 的 资源 。 电 子 商务 企业 
掌握 了 全 面 的 数据 信息 ， 其 中 包括 所 有 注册 用 户 的 浏览 信息 、 购 买 消费 记录 、 用 户 对 商 
pe oe mi dt reid 
此 ， 大 数据 贯穿 于 整个 电子 商务 的 业务 流程 ,是 电子 商务 分 必 况 争 力 。 大 数据 在 
电子 商务 中 的 主要 应 用 有 推荐 服务 和 大 数据 营销 。 SS 
AN 负 日 


1. 推荐 服务 
随 着 网 络 信息 的 飞速 增加 ， 用 户 面 临 着 信 种 
获 查 找 自己 感 兴趣 的 信息 ,但 是 在 用 户 没 硝 
国 者 效 地 获取 自己 所 需 的 信息 ， 推 荐 系统 应 运 
型 应 用 ， 通 过 分 析 用 户 的 历史 记录 了 解 他 们 
的 喜好 ， 从 而 主动 为 用 户 推荐 ti ma 机 ee 
(1) 推 荐 系统 方法 。 ，Y 
失 统 的 本 训 人 国王 昌之 则 人 村 据 推荐 算法 的 不 同 ， 推 荐 方法 可 


分 为 以 下 五 类 。 2 人 
OD 专家 推 烧 。 条 一 和 人工 和， 由 的 


物品 ， 需 要 人 力 成 本 ， 现 多 用 于 其 他 推荐 算法 结果 的 补充 。 

@ 基于 统计 信息 的 推荐 。 概 念 直观 ， 易 于 实现 ， 但 是 对 用 户 个 性 化 偏好 的 描述 能 力 
较 弱 。 

@ 基于 内 容 的 推荐 。 是 信息 过 滤 技 术 的 延伸 与 发 展 ， 通 过 机 器 学 习 的 方法 描述 内 容 
特征 ， 并 基于 内 容 特征 发 现 与 之 相似 的 内 容 。 

团 协同 过 滤 推 荐 。 是 推荐 系统 中 应 用 较 早 且 较 成 功 的 技术 之 一 。 一 般 采 用 最 近邻 技 
术 ， 利 用 用 户 的 历史 信息 计算 用 户 之 间 的 距离 ， 然 后 借助 目标 用 户 的 最 近邻 居 用 户 对 商 
品 的 评价 信息 ， 预 测 目标 用 户 对 特定 商品 的 喜好 程度 ， 最 后 根据 这 一 喜好 程度 对 目标 用 
户 进行 推荐 。 

@@ 混合 推荐 。 实 际 应 用 中 ,单一 的 推荐 算法 无 法 取得 良好 的 推荐 效果 ， 因 此 多 数 推 
荐 系统 会 有 机 组 合 多 种 推荐 算法 。 

(2) 推 荐 系统 模型 。 

一 个 完整 的 推荐 系统 通常 包括 三 个 组 成 模块 : 用 户 建 模 模块 、 推 荐 对 象 建 模 模 块 和 
推荐 算法 模块 ， 如 图 7. 4 所 示 。 首 先 对 用 户 进行 建 模 ， 根 据 用 户 行为 数据 和 用 户 属性 数据 
分 析 用 户 的 兴趣 和 需求 同时 对 推荐 对 象 进行 建 模 ; 然后 基于 用 户 特征 和 物品 特征 ， 采 














































用 推荐 算法 得 到 用 户 可 能 感 兴趣 的 对 象 ， 并 根据 推荐 场景 过 滤 和 调整 推荐 结果 ， 最 后 将 
推荐 结果 展示 给 用 户 。 





在 电子 商务 领域 中 ， see 亚马逊 作为 推荐 系统 的 由 
站 


祖 ， 已 将 推荐 的 思想 诊 适 的 各 个 角落 的 历史 浏览 记录 来 为 用 户 推荐 
商品 ， 实 现 了 多 种 推荐 场 攻 。 NS 
2. 大 数据 萝 钙 六、 和 


ott. 
此 对 广告 投放 的 内 容 、 时 间 、 形 式 等 进行 预 判 和 调配 ， 最 终 完成 广告 投放 的 营销 过 程 。 

(1) 大 数据 营销 的 特点 。 

大 数据 营销 的 特点 包括 多 平台 数据 采集 、 强 调 时 效 性 、 个 性 化 、 性 价 比 高 和 关联 性 。 

@ 多 平台 数据 采集 。 大 数据 的 数据 来 源 是 多 样 化 的 ， 多 平台 数据 采集 能 够 使 网 民 行 
为 的 刻画 更 全 面 、 更 准确 。 采 集 来 源 包括 互联 网 、 移 动 互联 网 、 智 能 电视 、 户 外 智能 
屏 等 。 

@@ 强调 时 效 性 。 在 网 络 时 代 ， 网 民 的 消费 行为 和 购买 方式 极 易 在 短 时 间 内 发 生变 化 ， 
在 网 民 需 求 点 达到 顶峰 时 进行 营销 非常 重要 。 全 球 领先 的 大 数据 营销 企业 AdTime 据 此 
提出 了 时 间 营 销 策略 ,可 通过 技术 手段 充分 了 解 网 民 的 需求 ， 及 时 响应 每 个 网 民 当前 的 
需求 ， 在 其 决定 购买 的 “黄金 时 间 ” 内 接收 到 商品 广告 。 

@ 个 性 化 。 以 往 的 营销 活动 大 多 以 媒体 为 导向 ， 选 择 知名 度 高 的 媒体 进行 投放 。 如 
今 广告 商 完全 以 受众 为 导向 进行 广告 营销 ， 选 择 知名 度 高 、 浏 览 量 大 的 媒体 进行 投放 。 
习 为 大 数据 技术 可 让 他 们 知晓 目标 受众 身 处 何方 、 关 注 什么 位 置 的 什么 样 的 屏幕 。 大 数 
据 技术 可 以 做 到 当 不 同 用 户 关 注 同一 媒体 的 相同 界面 时 ,广告 内 容 不 同 。 大 数据 营销 实 























现 了 对 网 民 的 个 性 化 营销 。 

国 性 价 比 高 。 与 传统 广告 相 比 ， 大 数据 营销 做 到 了 最 大 程度 地 让 广告 商 的 广告 投放 
有 的 放 矢 ， 并 且 可 以 根据 实时 效果 反馈 ， 及 时 调整 投放 策略 。 

回 关联 性 。 大 数据 营销 的 一 个 重要 特点 在 于 网 民 关注 的 广告 与 广告 之 间 的 关联 性 ， 
由 于 大 数据 在 采集 过 程 中 可 快速 得 知 目标 受众 关注 的 内 容 ， 知 晓 网 民 身 在 何 处 ,这些 有 
价值 的 信息 可 以 让 广告 的 投放 过 程 产生 前 所 未 有 的 关联 性 ， 即 网 民 看 到 的 上 一 条 广告 语 
与 下 一 条 广告 进行 深度 互动 。 

(2) 大 数据 营销 的 实际 操作 。 

对 很 多 企业 来 说 ， 大 数据 的 概念 并 不 陌生 ， 但 如 何在 营销 中 应 用 大 数据 呢 ? 作为 大 
数据 最 先 落地 也 最 先 体现 出 价值 的 应 用 领域 ， 大 数据 营销 有 较 成 熟 的 经 验 和 操作 模式 。 
通过 处 理 原 始 数据 、 分 析 用 户 特征 及 偏好 、 J 

















提升 。 大 数据 营销 的 一 般 过 程 如 图 7.5 所 示 。 








分 析 
处 理 原 始 数据 。 用 户 特征 及 偏好 





图 7.5 大 数据 营 


能 够 被 读 懂 。 村 程 中 ， 需 要 建立 和 应 用 各 类 “ 库 ”， 如 行业 知识 库 (包括 产品 知识 库 、 
关键 词 库 、 域 名 知识 库 等 )， 由 “数据 格式 化 处 理 库 ”衍生 出 的 底层 库 ( 包 括 用 户 行为 库 、 
URL 标签 库 等 )、 中 层 库 (包括 用 户 标签 库 、 浏 览 统计 、 与 情 评估 ) 等 。 

@ 分 析 用 户 特征 及 偏好 。 将 第 一 方 标签 与 第 三 方 标签 结合 ， 按 不 同 的 评估 维度 和 模 
型 算法 ， 用 村 条 和 全 2 插 且 有 相国 符 全 的 用 和 天 分 的 不 同属 性 的 族 加 分 别 描述 用 户 的 

记 、 年 龄 、 职 业 等 )、 动 态 信 息 ( 如 商品 偏好 、 娱 乐 偏好 、 健 康 状况 等 )、 
实时 信息 (如 地 理 位 置 、 相关 事件 、 相 关 服 务 等 )， 形 成 网 站 用 户 画像 。 

@ 制定 渠道 和 创意 策略 。 根 据 对 目标 群体 的 特征 测量 和 分 析 结果 ， 选 择 更 合适 的 用 
户 群体 匹配 适当 的 媒体 ， 制 定性 价 比 及 效率 更 高 的 渠道 组 合 。 在 营销 计划 实施 前 ， 对 
营销 投放 策略 进行 评估 和 优化 ， 从 而 提高 目标 用 户 群 的 转化 率 。 

@ 提升 营销 效率 。 在 投放 过 程 中 ， 仍 需 不 断 分 析 数 据 ， 并 利用 统计 系统 对 不 同 渠 道 
的 类 型 、 时 段 、 地 域 、 位 置 等 有 价值 的 信息 进行 分 析 ， 对 用 户 的 转化 程度 进行 评估 ， 在 
营销 过 程 中 调整 实施 策略 。 


(0 i 结构 化 和 标准 化 处 理 ， 使 其 
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鸭 > 【加 读 襟 例 7-2] 
海尔 ; 大 数据 营销 的 真实 故事 


杂乱 无 章 ， 井 然 有 序 ; 上 海 虹桥 新 城 小 区 ; 北京 景泰 西里 小 区 ; 外 企 高 级 经 理 陈 然 
海尔 帝 覃 空调 ; 旅游 杂志 ; 厄瓜多尔 足球 名 将 格 隆 ; 海尔 智能 平板 电视 ， 这 些 看 起 来 杂 
乱 无 章 、 毫 无 关系 的 词语 组 合 ， 通 过 “大 数据 ”而 变 得 井然 有 序 。 这 正 是 海尔 公司 社交 
化 客户 关系 管理 (Social Customer Relationship Management，SCRM) 会 员 大 数据 平台 帮 
助 企业 切换 视角 ， 在 网 络 化 时 代为 用 户 提供 精准 营销 与 互动 服务 的 成 功 案例 。 

1. 个 性 化 服务 

2012 年 ,海尔 公 司 推出 帝 构 空 调 ， 因 其 外 形 由 方 到 圆 的 颠 创新 ， 被 评 为 “影响 
世界 的 十 大 创意 产品 ”。 帝 槽 空调 还 有 很 多 特点 : 健康 ， 去 及 ; 舒适 ，3D 立体 送 
风 ; 智能 ， 智 能 风 随 人 动 。 

为 精准 预测 还 有 哪些 用 户 可 能 选 购 帝 樟 空 调 ， 及 由 
月 ， 海 尔 公司 通过 SCRM 会 员 大 数据 平台 ,提取 也 感 
国 邮政 的 地 址 数据 库 匹 配 ， 建 立 了 look -alike 视 
几 万 名 用 户 所 在 的 小 区 分 成 几 类 ， 并 打上 入 


数据 库 ， 找 到 有 相似 特点 的 所 有 小 区 / 
将 要 提 到 的 北京 景泰 西里 小 区 。 a 
大 数据 的 到 来 让 企业 能 够 号 现 更 关注 和 “合适 ”或 者 偏爱 “ 知 

仇 据 平台 同 多 家 郊 闲 生路 康 类 杂志 合作 ， 不 仅 可 以 为 


能 ”的 用 户 。 海 尔 SCRM 
北京 地 区 杂志 订阅 用 户 买 帝 樟 空 调 的 优 续 5 六 可 以 通过 用 户 订阅 的 杂志 类 型 来 关 








育 把 这 些 数 据 标 签 返回 中 国 邮 政 的 地 址 
在 北京 市 就 有 65 个， 其 中 就 包含 本 案例 








断 用 户 的 特点 ， 进 珍 征 确 若 销 。 通 过 这 种 家 法 \ 效 尔 公司 找到 了 陈 然 一 一 位 订阅 旅游 
杂志 的 北京 景 于 四 划 小 区 住户 。 海 尔 SCiGYK 会 员 大 数据 平台 由 此 预测 ， 际 然 极 有 可 能 对 


帝 梯 空 调 去 中 ,5 的 功能 感 兴趣 。 几 天 后 的 4 月 26 日 ， 陈 然 收 到 了 海尔 投递 的 一 封 直 
邮 单 页 ， 除了 送 去 公益 环保 知识 之 外 ,重点 介绍 了 帝 构 空调 去 除 PM2.5 的 功能 。5 月 
日 ， 陈 然 带 着 收 到 的 直 邮 单 页 来 到 国美 电器 (北京 洋 桥 店 )， 现 场 体验 后 ， 购 买 了 一 套 海 
尔 帝 樟 空 调 。 成 交 后 ， 陈 然 登录 海尔 公司 的 官方 网 站 ， 注 册 为 海尔 梦 享 会 员 。 显 然 ， 通 
过 海尔 公司 的 精准 营销 ， 陈 然 享 受到 了 个 性 化 服务 。 

2. 互动 的 开始 

海尔 公司 不 是 把 成 交 当 作 销 售 的 结束 ， 而 是 当 作 互 动 的 开始 。5 月 6 日 ， 通过 陈 然 留 
下 的 手机 号 码 ， 海尔 公司 对 陈 然 进行 了 回访 ， 告 知 他 不 仅 可 以 获得 会 员 “ 消 费 积分 ”， 而 
且 可 以 通过 互动 获得 会 员 “ 创 新 积分 ”。 交 流 中 ， 陈 然 还 透露 出 购买 电视 机 的 计划 。 当 
天 ， 陈 然 关注 了 海尔 公司 官方 微 博 。 相 应 地 ，SCRM 会 员 大 数据 平台 获取 了 他 在 微 博 上 
的 公开 数据 ， 并 且 利 用 智能 语义 分 析 工 具 ， 从 陈 然 的 微 博 中 经 常 提 到 的 足球 名 将 格 隆 ， 
推测 出 陈 然 是 一 名 足球 爱好 者 ， 常 看 体育 节目 ， 也 十 分 看 重 画面 的 流畅 度 。 很 快 ， 海 尔 
SCRM 会 员 大 数据 平台 将 海尔 智能 电视 机 “高 速 、 画 面 无 拖 尾 ”的 特点 精准 地 推送 给 了 
。5 月 12 日 ， 陈 然 购买 了 一 台海 尔 电视 机 。 陈 然 很 高 兴 ， 他 说 :“ 海 尔 的 这 种 精准 服 
息 是 我 需要 的 。” 














, 


海尔 SCRM 会 员 大 数据 平台 有 着 严格 的 消费 者 隐私 保护 与 数据 安全 规范 ， 其 获取 的 
数据 来 源 于 用 户 、 服 务 于 用 户 。 海 尔 公司 分 析 这 些 数据 的 目的 是 预测 用 户 需 求 、 优 化 用 
户 体验 ， 如 帮助 陈 然 节省 四 处 寻找 满意 的 空调 和 电视 机 的 时 间 。 

3. 用 平台 黏 住 用 户 

海尔 公司 开展 “网 络 化 战略 ”， 与 用 户 虚 网 互动 、 实 网 体验 ， 打 造 无 边界 的 企业 、 无 
尺度 的 供应 链 ， 即 “平台 型 企业 ， 大 规模 定制 "。 当 然 ， 建 平台 获取 数据 不 是 目的 ， 用 平 
台 黏 住 用 户 才 是 根本 。 

海尔 公司 有 一 个 营销 理念 用 户 参 与 设计 才 是 真正 的 营销 。 事 实 上 ， 在 SCRM 会 员 
大 数据 平台 上 与 陈 然 的 互动 已 经 不 只 是 精准 营销 ， 而 是 让 用 户 参 与 设计 ， 与 用 户 分 享 价 
值 。 陈 然 在 与 海尔 公司 进行 互动 时 ， 说 他 父母 家 用 的 是 海尔 燃气 灶 ， 但 因为 小 区 年 代 久 ， 
燃气 不 稳定 ， 点 火 费 劲 。 他 听 说 海尔 公司 开发 了 零 水 压 洗衣 机 ， 问 能 否 开 发 零 气 压 燃 气 
灶 。 这 一 建议 通过 SCRM 会 员 大 数据 平台 传递 到 企划 平台 进行 计 。 

陈 然 与 基于 大 数据 平台 的 开放 的 海尔 公司 网 状 组 织 点 接触 ， 都 将 触发 整 张 网 
络 的 联动 。 营 销 可 以 驱动 企划 ， 售 后 可 以 拉动 售 前 ， 绕 用 户 精 准 服务 ， 用 户 参 与 


企业 前 端 设计 ， 内 部 与 外 部 无 边界 ， 员 工 与 用 户 傈 骂 。 
(资料 来 源 :， https: /www toutiaou ca 17129961309536514，2016-08-22. ) 


7.2.2 大 数据 与 社交 媒体 RS 


在 大 数据 时 代 ， 各 种 社交 网 妆 时 到 广泛 应 用 xx 近年 来 ,社交 网 络 中 的 用 户 数 
的 关系 或 链接 、 社 分 析 工 具 正 是 由 社交 网 站 













量 迅速 增长 ， 用 户 之 间 也 产生 


的 海量 数据 衍生 出 的 服务 型 ， 同 时 为 社交 网 巨大 的 参考 价值 。 社 交 网 站 可 
TAO 是 用 户 需求 的 应 用 和 功能 ， 从 而 将 用 户 
人- 这 个 意义 上 来 用 户 数 据 的 挖掘 和 分 析 ， 社交 网 站 完 
全 有 可 能 比 自动 更 了 解 用 户 。 

传统 的 理 方法 不 适用 于 处 理 大 数据 ， 需 要 新 技术 来 管理 、 查 询 、 处 理 和 分 析 
大 数据 ， 以 实现 数据 挖掘 和 知识 发 现 过程 的 优化 ， 推 动 与 激励 大 数据 管理 和 数据 科学 的 
研究 和 实践 。 在 社交 网 络 上 ， 用 户 发 表 的 帖子 提供 了 丰富 的 数据 与 各 种 表达 和 情绪 。 社 
交 媒 体 的 帖子 涵盖 了 用 户 表 达 的 信息 、 情 感 、 鼓 励 和 意见 。 现 代 网 络 社交 平台 为 社交 大 
数据 的 研究 提供 了 大 量 的 数据 和 信息 ， 在 此 基础 之 上 ， 机 器 学 习 、 数 据 挖掘 算法 的 发 展 
为 分 析 和 研究 人 们 的 情绪 带 来 了 可 能 。 

社交 大 数据 的 应 用 包括 顾客 倾向 分 析 、 社 交 关 系 分 析 、 用 户 行 为 分 析 和 与 情 监督 
控制 。 


1. 顾客 倾向 分 析 


应 用 大 数据 可 以 更 好 地 预测 顾客 未 来 的 需求 。 进 入 互联 网 时 代 之 后 ， 每 个 人 都 不 可 
避免 地 留 下 自己 的 行为 痕迹 。 通 过 分 析 顾 客 在 网 上 商城 浏览 商品 、 搜 索 商 品 、 询 价 、 下 
单 等 数据 ， 可 以 帮助 商家 预测 顾客 需要 什么 类 型 的 商品 ， 或 倾向 于 购买 什么 价位 的 商品 
人 们 分 享 的 信息 越 多 ， 商 家 可 利用 的 信息 也 就 越 多 ， 社 交 网 络 不 仅 方便 了 用 户 之 间 的 沟 
通 交流 ， 而 且 让 商家 更 了 解 客户 的 需求 。 顾 客 在 其 社交 软件 中 发 表 的 评论 ， 上 传 的 音乐 、 
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视频 等 的 背后 都 隐藏 着 顾客 的 兴趣 和 消费 倾向 ， 从 这 些 数据 中 可 以 预测 其 将 要 购买 哪些 
产品 ， 还 可 以 根据 反馈 进行 合理 化 改进 。 
2. 社交 关系 分 析 


社交 关系 分 析 可 以 帮助 人 们 发 现 彼 此 的 朋友 圈 ， 扩 展 交 际 范围 ， 还 能 使 有 共同 兴趣 
的 人 方便 交流 。 站 在 商业 角度 ， 商 家 在 预测 客户 需求 时 ， 不 仅 要 关心 客户 自己 表达 的 兴 
趣 ， 而 且 要 了 解 其 朋友 的 兴趣 。 社 交 成 员 不 可 能 在 社交 网 络 上 表露 出 自己 的 全 部 兴趣 ， 
商家 也 不 可 能 了 解 到 全 部 细节 信息 。 但 是 如 果 某 一 客户 的 大 部 分 朋友 都 对 某 样 事物 感 兴 
趣 ， 则 可 推导 出 该 客户 的 兴趣 ， 即 使 他 从 来 没有 直接 表达 出 来 。 

执法 部 门 和 反 届 ′ 部 门 也 可 以 从 社交 网 络 关系 分 析 中 获取 有 效 信息 ， 可 识别 出 问题 人 
群 及 与 其 有 直接 或 者 间接 关系 的 群体 ， 这 类 分 析 也 称 为 链接 分 析 。 当 发 现 可 疑 人 物 出 现 





























在 某 个 地 方 时 ， 就 可 以 采用 定位 技术 ， 对 其 进行 更 深入 的 监控 4 

3. 用 户 行为 分 析 NN 

A AN) 更 大 范围 的 群体 行为 的 一 
部 分 。 当 讨论 个 体 行为 时 ， 人 们 的 关注 点 只 集 个 体 上 ; 而 群体 行为 则 是 在 一 
pe 

4 与 情 监 督 控制 < 

对 社交 网 络 上 的 各 种 评论 和 意见 选 宿 契 析 ,还 可 以 有 效 地 帮助 政府 进行 熏 情 监控 。 
分 析 这 些 熏 情 数据 ， 可 以 发 现 央 对 某 个 事件 的 还 可 以 帮助 政府 发 现 潜在 
的 社会 问题 ， 并 据 此 采取 相 磁 项 措 施 ， 实 现 更 及 时 逆 人 贬 化 的 管理 。 

应 用 大 数据 分 析 个 被 行为 种群 体 行为 ， 喜 类 的 共性 和 差异 性 。 社 交 网 络 
上 有 大 量 的 用 户 行 卷 所 还 数据 。 对 于 研究 人 类 答 为 的 科学 家 而 言 ， 可 以 通过 社交 网 络 

: 非 格 式 化 的 数据 (如 照片 、 声 音 、 文 本 

等 ) 可 以 更 好 行为 学 家 分 析 人 类 行 妈 变 化 ， 并 从 中 发 现 人 类 行为 的 特征 ， 寻找 共 
性 与 差异 性 。 效 过 对 大 数据 的 收集 和 分 析 ， 社 交 网络 可 以 提供 各 种 各 样 的 服务 ， 包 括 
搜索 、 推 荐 、 广 告 营销 等 ， 这 些 的 服务 也 给 社交 网 络 中 的 大 数据 带 来 新 的 挑战 。 

7. 2.3 ”大 数据 与 零售 行业 国 

大 数据 在 传统 零售 行业 的 应 用 主要 体现 在 以 互联 网 为 依托 ， 运 用 
人 工 智能 等 先进 技术 手段 ， 对 商品 的 生产 、 流 通 与 销售 过 程 进行 升级 
改造 ， 进 而 重 塑 业态 结构 与 生态 圈 ， 并 对 线 上 服务 、 线 下 体验 及 现代 【消费 爆发 下 识 业 
物流 进行 深度 融合 ， 形 成 一 种 零售 新 模式 。 大 数据 工具 不 同 于 其 他 任 二 
何 工具 ,不 仅 需要 仔细 分 析 过 去 发 生 过 什么 ， 而 且 要 向 零售 商 展示 正 
在 发 生 的 事情 。 它 能 揭示 最 新 出 现 的 威胁 和 机 遇 ， 推 动 未 来 商业 模式 的 改变 。 所 以 ， 大 
数据 技术 对 拥有 海量 信息 的 零售 企业 至 关 重 要 ， 决定 了 其 对 信息 的 处 理 能 力 。 

大 数据 在 零售 行业 的 应 用 主要 集中 在 发 现 关联 购买 行为 、 客 户 群体 划分 和 整合 产业 
链 资源 三 个 方面 。 








1. 发 现 关联 购买 行为 

传统 数据 库 中 的 数据 多 为 静态 结构 化 数据 ， 无 法 准确 判断 顾客 的 真实 需求 。 而 基 
于 云 计 算 、 物 联网 产生 的 大 数据 多 为 动态 的 非 结构 化 数据 ， 对 这 些 大 数据 进行 获取 、 
整理 和 分 析 ， 能 够 实时 模型 化 顾客 的 行为 ， 准 确 洞察 顾客 潜在 的 和 最 新 的 需求 ， 精 准 
识别 顾客 购买 决策 ， 从 而 主动 推荐 产品 或 服务 ， 顺 利 完 成 交易 。 沃 尔 玛 “啤酒 + 尿布” 
的 经 典 案例 可 以 充分 说 明 这 一 点 。 利 用 大 数据 可 以 发 现 顾客 的 关联 购买 行为 和 精准 化 
洞察 顾客 需求 。 沃 尔 玛 能 够 发 现 这 种 关联 购买 行为 ， 很 大 程度 上 要 归功 于 大 数据 技术 ， 
它 拥有 世界 上 最 大 的 数据 仓库 系统 ， 积 累 了 大 量 的 原始 交易 数据 ， 利 用 海量 数据 可 以 
对 顾客 的 购物 行为 进行 购物 车 分 析 。 同 时 ， 通 过 数据 分 析 和 实地 调查 发 现 ， 美 国 一 些 
年 轻 父亲 下 班 后 经 常 到 超市 购买 婴儿 尿布 ， 而 他 们 中 有 30%~~40% 的 人 会 顺便 为 自己 

















购买 啤酒 。 这 一 发 现 使 得 沃尔玛 的 各 个 门店 将 尿布 与 啤酒 摆 一 起 ， 并 最 终 提高 了 
十 之 间 的 站 ， 并 这 商品 的 全 让 收 到 交易 记录 中 挖掘 到 
下 的 效果 。 


啤酒 与 尿布 之 间 的 关联 ， 并 通过 商品 的 组 合 摆 放 收 到 失意 想 
2. 客户 群体 划分 
伴随 具有 海量 数据 的 手机 和 大 数据 分 析 陈 F 步 ， 客 户 群 体 的 划分 更 加 细致 。 除 


了 利用 传统 的 市 场 研究 资料 和 购买 的 历 ， 和 零售 商 现在 可 以 跟踪 和 利用 个 人 用 户 
产生 的 行为 数据 ， 加 强 消 费 者 的 多 渠 *， 这 已 成 为 提升 销售 业绩 、 客 户 满 意 度 和 忠 


诚 度 的 驱动 力 。 2 买 商 品 ， 零 售 商都 可 以 利用 大 数 
ede 


众所周知 ， 对 于 零 仿 ， 孕 妇 是 非常 重 i 费 群 体 ， 具 有 很 高 的 “含金量 ”。 
孕妇 从 怀孕 到 生产 需 Pyne 和, 
稳定 的 刚性 需求 。 妇 会 sx 和 


1 尿布 、 爽 身 粉 等 各 种 商品 ， 有 非常 
。 但 是 如 果 等 到 婴儿 出 生 ， 公 开 的 出 
oddest 部 知道 这 个 信息 oo 
此 时 商家 再 行 人 会 面临 湖 数量 庞大 的 市 场 竞争 者， 这 时 大 数据 技术 就 能 名 提供 
很 大 的 帮助 。 美 国 第 二 大 零售 超市 Target 率先 采用 大 数据 系统 成 功 分 析 得 到 了 客户 的 深层 
需求 ， 达 到 了 更 精准 的 营销 目的 。 他 们 通过 分 析 发 现 ， 有 一 些 明 显 的 购买 行为 可 以 用 来 判断 
顾客 是 否 已 经 怀孕 ， 如 含 钙 、 镁 、 锌 等 的 保健 品 。 在 此 基础 上 ， 选 出 了 25 种 典型 商品 的 消 
费 数据 构建 得 到 “怀孕 预测 指数 "， 借 助 该 指数 ， 可 以 在 很 小 的 误差 范围 内 预测 客户 的 怀孕 
情况 。 与 此 同时 ，Target 注意 到 ， 有 些 孕妇 在 怀孕 初期 并 不 想 让 他 人 知道 ， 若 贸然 邮寄 孕妇 
用 品 广告 单 ， 很 可 能 适得其反 ,暴露 顾 客 隐私 ， 惹 她 顾客 。 于 是 他 们 通过 将 优惠 广告 夹 在 与 
怀孕 无 关 的 其 他 商品 优惠 广告 当中 ， 他 们 通过 获得 巨大 的 收益 。 
3. 整合 产业 链 资源 
产业 链 整 合 是 目前 零售 业 转 型 的 核心 问题 ， 零 售 业 的 产业 链条 由 销售 终端 开始 向 前 
推 ， 包括 售后 服务 提供 商 、 经 销 商 、 运 输 商 、 生 产 商 和 供应 商 等 几 个 环节 。 在 这 些 环节 
中 产生 的 数据 都 将 成 为 零售 业 大 数据 的 一 部 分 。 零 售 行业 的 当务之急 是 解决 通过 产业 链 
主体 间 的 协调 运作 实现 这 些 数 据 的 共享 与 协同 价值 创造 ， 以 及 实现 大 数据 驱动 的 产业 链 
协调 运作 机 制 等 问题 。 
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7.3 大 数据 在 生物 医学 领域 的 应 用 


大 数据 在 生物 医学 领域 得 到 了 广泛 的 应 用 。 在 流行 病 预测 方面 ， 大 数据 彻底 和 颠覆 了 
传统 的 流行 病 预测 方式 ,使 人 类 在 公共 卫生 管理 领域 迈 上 了 一 个 新 台阶 。 在 智慧 医疗 方 
面 ， 通 过 建立 健康 档案 区 域 医疗 信息 平台 ,利用 最 新 的 物 联网 技术 和 大 数据 技术 ,实现 
患者 、 医 护 人 员 、 医 疗 服务 提供 商 、 保 险 公 司 之 间 的 无 颖 上 且 智 能 互联 ， 让 患者 体验 一 站 
式 的 医疗 、 护 理 和 保险 服务 。 在 生物 医学 方面 ， 大 数据 使 人 们 可 以 利用 现 有 的 数据 科学 
知识 ， 更 加 深入 地 了 解 生物 学 过 程 


7.3.1 大 数据 与 流行 病 预测 


在 公共 卫生 领域 ， 流 行 疾病 管理 是 一 项 关 平民 众 身体 健 ss oa emt. 

具有 传染 性 的 病毒 、 ert 级 细菌 引发 大 规模 流 

行 疾病 的 可 能 性 并 没有 完全 消除 。 随 着 全 球 经 济 的 繁 莹 发 乱 便捷 的 交通 工具 也 加 快 了 

流行 性 传染 疾病 的 扩散 速度 、 扩 大 了 扩散 范围 。 T 有 在 疫 潮 初 期 迅速 掌握 疫 区 的 

整体 情况 、 控 制 病源 扩散 ， Sm i 态 措 施 ， 才 能 尽量 避免 疫病 带 来 的 

恐慌 情绪 和 社会 损失 。 
eg 因为 样本 局 限 、 统 计 

级 


误差 、 逐 层 报告 、 核 实 周期 延迟 别 时 常 已 经 由 点 至 面 地 发 展开 来 ， 
向 加 的 损失 s 大 用 , 使 人 类 在 公共 卫生 管 


理 领域 迈 上 了 一 个 新 台 ;为 基础 ， 分 析 不 同时 空 尺 度 
的 人 口 流动 性 、 人 进 一 步 结合 种类 学 、 人 口 统计 学 、 地 理 、 气 象 和 人 和 群 
移动 迁徙 、 ee 和 信息 ， 和 病 时 空 传播 模型 ， 确 定 流 感 等 流行 病 


人 空 路 线 和 规律 ， 得 的 态势 评估 和 预测 。 


鸭 > [ 间 读 襟 便 7 -3 


















































谷歌 流感 预测 的 是 与 非 

2009 年 ， 甲 型 HINI1 流感 爆发 的 前 几 周 ,谷歌 的 工程 师 们 在 Nature 上 发 表 了 一 篇 论 
文 ， 介绍 了 于 2008 年 11 月 上 线 的 谷歌 流感 预测 (Google Flu Trend，GFT) 系 统 的 原理 ， 
并 展示 了 GFT 系统 的 实时 性 和 准确 性 。GFT 可 以 仅 延迟 1 天 就 给 出 每 周 的 流感 趋势 报 
告 ， 准 确 预测 流感 就 诊 患 者 的 数量 ， 比 美国 联邦 疾病 控制 和 预防 中 心 提 前 了 7 一 14 天 ， 且 
预测 结果 与 美国 联邦 疾病 控制 和 预防 中 心 的 检测 结果 高 度 相 符 。GET 系统 能 够 对 流感 爆 
发 作出 准确 监测 和 快速 反馈 ， 基于 谷歌 发 现 并 利用 了 体 量 巨大 、 履 盖 广 泛 的 实时 搜索 行 
为 与 流感 疫情 之 间 的 关联 性 。 

基于 所 掌握 的 庞大 数据 及 复杂 的 数据 类 型 ， 谷 歌 的 工程 师 们 并 不 是 根据 语义 机 器 相 
关 因 果 关 系 来 直接 判定 哪些 查询 词 条 可 以 作为 预测 指标 ， 而 是 将 约 5000 万 条 常见 检索 关 
键 词 的 庞大 集合 作为 基础 ， 对 这 些 关键 词 逐 一 拟 合 ， 并 判断 拟 合 曲线 与 历史 数据 之 间 的 
相符 程度 ， 依 据 这 一 程度 的 真实 性 为 每 个 检索 关键 词 打分 ， 然 后 由 选择 程序 自动 根据 得 








分 的 高 低 对 检索 关键 词 进行 排序 。 如 图 7. 6 所 示 是 谷歌 流感 预测 包含 检索 词 数量 的 效果 评 
估 ， 可 以 看 出 当 包 含 45 个 检索 关键 词 时 ， 模 型 预测 结果 的 平均 相关 性 曲线 达到 顶点 。 谷 
歌 公 司 将 这 45 个 检索 关键 词 作为 GFT 模型 检测 对 象 ， 并 依据 它们 的 检索 总 量 来 估计 流 
行 病 的 趋势 。 只 要 用 户 通 过 谷歌 输入 这 些 关键 词 进行 检索 ， 系 统 就 会 自动 对 用 户 的 地 理 
位 置 展开 跟踪 分 析 ， 创建 出 流感 图 表 和 流感 地 图 。 
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图 7.6 RY 量 的 效果 评估 


使 用 类 似 的 方法 ,谷歌 还 提供 了 和 一 登革热 的 疫情 趋势 ， 如 图 7.7 所 
数据 相符 i 


示 ， 该 疫情 趋势 与 巴西 官 rn 
各 本 则 数 所 和 @ 巴西 卫生 部 的 数据 
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图 7.7 登革热 的 疫情 趋势 


2013 年 2 月 ，GFT 再 次 登 上 头条 ， 但 这 次 不 是 因为 谷歌 流感 跟踪 系统 又 有 了 什么 新 
的 成 就 。2013 年 1 月 ， 美 国 流感 发 生 率 达 到 峰值 谷歌 对 流感 趋势 的 估计 数据 比 实 际 数 
据 高 两 倍 ， 这 种 不 精确 性 再 次 引起 了 媒体 的 关注 。 事 实 上 ， 在 2013 年 的 报道 之 前 ，GFT 就 在 
很 长 一 段 时 间 内 多 次 过 高 地 估计 了 流感 的 流行 情况 。 从 2011 年 8 月 到 2013 年 9 月 的 108 周 中 ， 
谷歌 开发 工具 错 估 流感 流行 的 时 长 高 达 100 周 。2012 一 2013 年 与 2011 一 2012 年 相 比 ， 它 对 流 
感 流行 趋势 高 估 了 超过 50。 在 冬天 的 流感 高 峰 ， 谷歌 追踪 的 数据 是 疾病 控制 和 预防 中 心 
实际 搜集 数据 的 两 倍 ， 这 些 错误 不 是 随机 分 布 的 。 例 如 ,前 一 周 的 错误 会 影响 下 一 周 的 
预测 结果 ， 错 误 的 方向 和 大 小 随 季节 变化 而 变化 ， 这 些 模式 使 得 GFT 高 估 了 相当 多 的 信 
息 ， 而 这 些 信息 原本 是 可 以 通过 传统 统计 方法 提取 而 避免 的 。 
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2014 年 Science 上 发 表 的 一 篇 文章 “谷歌 流感 的 富 言 : 大 数据 分 析 的 陷阱 ”以 该 故事 
为 例 ， 解 释 了 大 数据 分 析 为 何 会 背离 事实 。 造 成 这 种 结果 有 两 个 重要 原因 ， 分 别 是 大 数 
据 浮 夺 和 算法 变化 。 其 中 经 常 隐 含 的 假设 是 ， 大 数据 是 传统 的 数据 收集 和 分 析 的 替代 品 ， 
而 不 是 补充 。 人 们 断言 大 数据 有 巨大 的 科学 可 能 性 。 但 是 ， 数 据 量 并 不 意味 着 人 们 可 以 
忽略 测量 的 基本 问题 ， 构 造 效 度 和 信 度 及 数据 间 的 依赖 关系 ， 大 数据 并 没有 产生 对 科学 
分 析 来 说 有 效 和 可 靠 的 数据 。 

谷歌 改善 服务 时 ,也 改变 了 数据 生成 过 程 。 这 些 调整 有 可 能 人 为 推 高 了 一 些 搜索 ， 
并 导致 谷歌 被 高 估 。 例 如 ，2011 年 ， 作 为 常规 搜索 算法 调整 的 一 部 分 , 谷歌 开始 对 许多 
查询 采用 推荐 相关 搜索 词 (包括 列 出 与 许多 流感 相关 术语 的 寻找 流感 治疗 的 清单 等 ) 的 方 
式 。2012 年 ， 为 了 响应 对 症状 的 搜索 ,谷歌 开始 提供 诊断 术语 ， 研 究 人 员 认 为 ， 如 果 是 
这 样 ， 谷 歌 流感 趋势 的 不 准确 性 就 不 是 必然 的 ， 这 并 不 是 因为 谷歌 的 方法 或 大 数据 分 析 
本 身 存在 缺陷 ， ee 





当 研 究 人 员 研 究 过 去 几 年 与 各 种 流感 相关 的 查询 时 ， 

治疗 ， 以 及 如 何 区 分 流感 、 受 凉 或 感冒 ) 与 谷歌 流感 
感 ， 这 些 特殊 的 搜索 似乎 是 导致 不 准确 问题 的 主要 原 利用 大 数据 追踪 流感 是 一 件 特 
方 中 心 针对 流感 发 生 率 数 据 制 定 的 


别 困难 的 事情 ， 事 实证 明 ， 主 要 原因 是 疾病 控 
相关 搜索 词 不 同 ， 这 是 由 搜索 模式 和 流感 三 个 因素 一 一 季节 导致 的 。 事 实 上 ， 


谷歌 流感 趋势 的 开发 人 员 发 现 那些 特 穴 饲 是 随时 间 发 生变 化 的 ， 但 这 些 搜索 显然 
与 病毒 无 关 。 < 
对 流感 的 分 析 表明 ， 最 好 DX sat a A 
的 应 该 是 “全 数据 革命 "， 民 多 如 全 新 的 技术 和 方 尝 也 各 和 问题 进行 更 多 、 更 好 的 分 析 。 
肃 ，2017. ee 示 录 [M] . 北京: 机 械 工业 出 版 社 .) 
sr 效 时 
智慧 医疗 期 坟 藉 合 各 类 医疗 信息 资源 ， 铭 建 药品 目录 数据 库 、 居 民 站 
估 康 档案 数据 厌 、 影 响 数据 库 、 检 验 数据 库 、 医 疗 人 员 数 据 库 、 医 疗 设 
备 数据 库 等 卫生 领域 的 六 大 基础 数据 库 。 医 生 可 以 随时 查阅 病人 的 病历 【 创 投 新 风口 健康 
病史 、 治 疗 措施 和 保险 细则 ， 随 时 随地 快速 制定 诊疗 方案 :也 可 以 让 种 0 
者 自主 选择 更 换 医生 或 医院 ， 患 者 的 转 诊 信息 及 病历 可 以 在 任意 一 家 医 5 
院 通过 医疗 联网 的 方式 调 阅 。 随 着 智慧 医疗 的 覆盖 面 越 来 越 广 和 云 计算 的 应 用 ， 移 动 医疗 成 
为 智慧 医疗 中 不 可 或 缺 的 一 部 分 。 相 较 于 传统 的 医疗 方式 ， 移 动 医疗 能 在 不 妨碍 日 常 工作 和 
生活 的 情况 下 随时 随地 检测 生理 状况 ， 实 现 对 疾病 早 发 现 、 早 诊断 、 早 治疗 。 
智慧 医疗 具有 以 下 三 个 优点 。 
. 促进 优质 医疗 资源 的 共享 
我 国医 疗 体系 存在 的 一 个 突出 问题 是 优质 医疗 资源 集中 分 布 在 大 城市 、 大 医院 ， 一 
些 校医 院 、 社 区 医院 和 乡镇 医院 的 医疗 资源 配置 明显 偏差 ， 导致 患者 扎堆 涌 向 大 城市 、 
大 医院 就 医 ， 使 得 这 些 医院 人 满 为 患 ， 患 者 体验 很 差 ， 而 社区 、 乡 镇 医院 却 因为 缺少 串 
者 而 进一步 限制 了 其 自身 发 展 。 要 想 有 效 解决 医疗 资源 分 布 不 均衡 的 问题 ， 当 然 不 能 在 


两 个 关键 搜索 词 (流感 
更 密切 ， 而 不 是 实际 的 流 
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小 城市 建设 大 医院 ， 这 样 做 只 会 提高 医疗 成 本 。 智 慧 医疗 为 解决 该 问题 指明 了 方向 : 一 
方面 ,社区 医院 和 乡镇 医院 可 以 无 缝 衔接 到 市 区 中 心 医院 ,实时 获取 专家 建议 、 安 排 
转 诊 或 接受 培训 ; 另 一 方面 ,一 些 医疗 器 械 可 以 实现 远程 医疗 监护 ,不 需要 患者 亲自 
跑 到 医院 ， 如 无 线 体重 计 、 无 线 血 糖 仪 等 传感器 可 以 实时 监测 患者 的 血压 、 心 率 、 体 
重 、 血 糖 等 生命 体征 数据 ， 传 输 给 相关 的 医疗 机 构 ， 使 患者 得 到 及 时 有 效 的 远程 治疗 。 

2. 避免 患者 重复 检查 

以 前 ， 患 者 每 到 一 家 医院 ， 需 要 在 这 家 医院 购买 新 的 信息 卡 和 病历 ， 重 复 做 在 其 他 
医院 已 经 做 过 的 各 种 检查 ,不仅 耗 费 患者 大 量 的 时 间 和 精力 ， 影 响 患 者 情绪 ， 也 浪费 了 
国家 宝贵 的 医疗 资源 。 智 慧 医 疗 系统 实现 了 不 同 医疗 机 构 间 的 信息 共享 ,在 任何 医院 就 
医 时 ， 只 要 输入 患者 的 身份 证 号 码 ， 就 可 以 立即 获取 患者 的 所 有 信息 ， 包 括 既 往 病史 、 
检查 结果 、 治 疗 记录 等 ， 再 也 不 需要 在 转 诊 时 做 重复 检查 。 













































































3. 促进 医疗 智能 化 MAN 
人 
药 、 打 错 针 等 现象 ;还 可 以 自动 提醒 医生 和 患者 进 答 咎 自 ， 提 醒 护士 发 药 、 巡 查 。 此 外 ， 
系统 利用 历史 时 计 的 海量 患者 数据 ， 可 以 构 模型 ， 根 据 患者 的 各 种 病症 ， 自 


动 诊断 其 可 能 患 有 哪 种 疾病 ， 从 而 为 医 ee 
将 更 加 智能 化 ， 智 慧 医疗 系统 会 自动 | pee 已 经 代谢 完毕 ， 


当代 谢 完毕 时 才 会 提醒 患者 。 0 设备 的 二 dd 
康 、 睡 卢 、 故 力 等 信息 ， > 0 


的 >》 [站 读 案 人 


「 第 三 代 云 1 院 信息 系统 

医院 信息 (Hospital Information System，HIS) 是 利用 计算 机 软 硬 件 技术 、 网 络 
通信 技术 等 现代 化 手段 ， 对 医院 及 其 所 属 各 部 的 人 流 、 物 流 、 财 流 进 行 综合 管理 的 一 款 
软件 。 在 国际 学 术 界 ， 它 已 被 公认 为 新 兴 的 医学 信息 学 的 重要 分 支 。HIS 的 有 效 运行 ， 
将 提高 医院 各 项 工作 的 效率 和 质量 ,减轻 各 类 事务 性 工作 的 劳动 强度 ,使 工作 者 腾 出 更 
多 的 精力 和 时 间 为 病人 服务 ; 分 析 数 据 以 改善 经 营 管理 ,保证 患者 和 医院 的 经 济 利益 ; 
为 医院 创造 经 济 效 益 。 

作为 互联 网 医疗 的 先行 者 ， 大 宅 门 医疗 集团 向 来 十 分 重视 技术 的 革新 和 数据 的 沉淀 。 
在 政府 大 力 推行 “医疗 信息 化 ”的 背景 下 ， 地 方 各 级 医院 使 用 的 HIS 就 显得 尤为 重要 。 
大 宅 门 医疗 集团 决定 打造 一 款 方便 医院 、 诊 所 使 用 的 云 门诊 HIS。 团 队 在 调研 了 市 场 上 
多 个 HIS 之 后 ,历时 6 个 月 ， 推 出 第 三 代 云 门诊 HIS。 

传统 的 HIS 能 够 解决 单个 医疗 机 构 的 信息 化 问题 ,但 却 对 分 散 的 个 体 没有 有 效 的 解 
决 方法 。 第 三 代 云 门诊 HIS 功能 齐全 ,可 以 实现 挂号 、 看 病 、 收 费 、 发 药 、 药 品 管理 、 
医院 管理 、 收 支 统计 等 功能 ， 极 大 地 提高 了 医院 、 诊 所 的 工作 效率 ， 同 时 简化 了 患者 的 
就 诊 流 程 。 该 系统 能 够 满足 医院 门诊 、 乡 镇 卫生 院 、 医 务 室 、 卫 生 服务 站 、 连 锁 诊 所 、 
药店 、 医 生 工 作 室 、 中 医 馆 、 养 生 馆 等 医疗 机 构 的 信息 化 服务 需求 ， 助 力 基层 医疗 机 构 
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息 化 ， 让 更 多 的 老百姓 享受 到 互联 网 科技 带 来 的 便利 。 第 三 代 云 门诊 HIS 的 功能 


图 7.8 所 示 。 
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三 代 云 门诊 HIS 的 优点 如 开 : SS 一 
) 系 统 开源 ， 降 低 学 习 NX> 党 
起 邹 寻 [使 用 。 2 


) 无 须 安装 硬件 ， 联 

人 六 区 Ww 
el 库房 情况 完全 学 M7 
gt 


) 可 接 和 第 舌 方 接口 ， 支 持 医保 光 寻 、 微 信 支 付 和 支付 宝 支 付 ， 从 而 方便 患者 


) 完 善 的 医生 排 班 系统 ， 既 能 避免 医生 的 工作 强度 太 大 ， 又 能 充分 利用 医疗 资源 来 


为 患者 服务 。 
7.3.3 大 数据 与 生物 信息 学 


生物 信息 学 是 一 门 综合 了 计算 机 科学 、 信 息 技术 、 数 学 理论 、 统 计 方法 等 的 研究 生 


物 信 息 
术 的 发 
人 类 基 
多 的 生 





的 交叉 学 科 , 包括 生物 学 数据 的 分 析 、 研 究 、 存 档 、 显 示 、 模 拟 等 。 随 着 测序 技 
展 ， 生 物 数据 呈 指 数 级 增长 ， 传 统 的 分 析 方法 已 无 法 满足 分 析 海量 数据 的 需求 。 
因 组 含有 约 30 亿 个 DNA 碱 基 对 ， 全 球 范 围 内 启动 了 各 种 基因 组 计划 ， 有 越 来 越 
物体 的 全 基因 组 测序 工作 正在 开展 或 已 经 完成 。 除 此 之 外 ,蛋白 组 学 、 代 谢 组 学 、 








转录 组 学 、 免 疫 组 学 等 也 是 生物 大 数据 的 重要 组 成 部 分 。 因 此 ,将 大 数据 时 代 的 云 计算 、 
数据 挖掘 等 技术 应 用 到 生物 信息 学 上 迫在眉睫 。 大 数据 技术 和 工具 在 基因 组 学 中 的 应 用 
分 为 四 类 : 数据 读 写 和 检索 、 数 据 查 错 、 数 据 分 析 和 平台 集成 工具 。 











1. 数据 读 写 和 检索 

通常 情况 下 ， 测 序 仪 能 够 产生 数 以 百 万 计 的 短 DNA 序列 信息 ， 这 些 信息 需要 被 映射 
到 特定 的 参考 基因 组 才能 进行 进一步 的 数据 研究 和 分 析 ， 如 基因 分 型 和 表达 变异 分 析 等 。 
CloudBurst 是 一 个 开放 源 代码 的 并 行 读 取 算 法 大 数据 模型 ， 能 够 大 大 提高 读 取 并 映射 序 
列 数据 到 人 类 基因 组 数据 的 速度 。 

2. 数据 查 错 


如 今 有 相应 的 大 数据 处 理 技术 来 识别 序列 数据 中 的 错误 。SAMQA 软件 旨 在 帮助 识 
别 序列 数据 中 的 错误 ， 以 确保 大 规模 的 基因 组 数据 符合 最 低 标准 的 质量 要 求 。SMAQA 
软件 最 初 是 为 癌症 基因 组 图 谱 项 目的 数据 而 设计 的 ， 能 自动 识别 并 报告 错误 ， 包 含 数据 
异常 性 的 技术 测试 ， 如 格式 错误 、 无 效 值 、 空 数据 读 取 等 。 对 平和 物 实验 数据 ， 研 究 人 
员 可 以 通过 设置 阔 值 来 过 滤 可 能 错误 的 数据 ， 而 这 些 数 据 将 点 维 专 家 手动 评估 。 








如 GATK、CloudBurst 等 ， 通 过 使 用 并 行 计 算 、 算 和 MapReduce 的 大 数据 技术 来 分 
析 基 因 序 列 信息 。GATK 是 一 个 基于 Map 的 编程 框架 ， 支 持 大 规模 的 DNA 序列 
分 析 , 已 经 被 应 用 于 癌症 基因 组 图 谱 


4 平台 集成 工具 
全 用 大 数据 计算 平 人 备 一 定 的 分 


学 研究 的 大 数据 应 用 的 人 专注 于 和 集 
的 平台 为 研究 人 员 分 系统 集成 家 










3. 数据 分 析 
在 基因 组 学 方面 ， 研 究 人 员 已 经 站 


的 大 数据 系统 和 工具 ， 开 发 易 用 
ig 运算 包 在 Hadoop 分 布 计算 平台 上 
析 和 访问 数据 ， 虚 拟 机 技术 也 被 应 用 到 












集成 了 一 系列 ， 用 于 大 规模 的 
工具 集成 中 ,人 





鸡 >》 [站 读 襟 促 7 -5] 


大 数据 在 白血病 基因 配 比 中 的 高 效应 用 

“以 前 一 个 人 一 下 午 才 能 做 七 入 个 人 的 白血病 基因 配 比 ， 现 在 我 们 在 数据 库 中 做 配 
比 ， 只 要 3min 就 能 完成 这 项 工作 。” 基 因 云 馆 的 运营 总 监 于 昕 说 到 自己 所 从 事 的 工作 时 
无 比 自豪 。2016 年 ， 于 昕 在 微 信 公众 号 中 写 到 :“ 理 想到 现实 ， 如 此 的 不 易 。” 而 一 年 后 ， 
于 昕 一 步 步 接近 他 的 理想 。 他 说 ， 人 类 和 白细胞 抗原 (Human Leukocyte Antigen，HLA) 血 
液 配 型 系统 是 他 们 团队 在 2017 年 做 的 一 个 比较 成 功 的 项 目 。HLA 血液 配 型 对 非 专业 人 
士 来 说 非常 陌生 ， 但 是 对 和 白血病 患者 来 说 却 是 救命 的 事情 。 和 白血病 患者 需要 进行 骨 苞 配 

型 ， 只 有 配 比 到 合适 的 骨 获 ， 才 能 做 骨 获 移植 手术 。 

如 果 按 照 传 统 的 做 法 ， 和 白血病 基因 配 比 是 一 项 巨大 的 工程 ， 要 把 患者 的 血样 与 上 万 人 的 
血样 进行 配 比 。 以 前 都 是 人 工 操作 ,一 个 人 一 下 午 才能 做 七 八 个 人 的 配 比 。 于 上 昕 团队 开发 的 
HLA 血液 配 型 系统 可 以 很 快 获得 配 比 结果 ， 从 上 万 人 中 获得 与 患者 匹配 的 骨 苦 ， 一 台 计 算 








机 仅 需 3min 就 能 完成 。 如 果 按 照 分 布 式 计算 ， 多 台 计 算 机 共同 合作 ， 不 到 1min 就 能 完 
成 。“ 目 前 我 们 这 个 项 目 还 在 谈判 阶段 ， 希 望 能 够 快速 落地 ， 用 这 一 大 数据 医疗 的 科技 
造福 人 类 。” 于 上 昕 谈 到 这 一 年 的 收获 时 ， 显 得 有 些 激动 ， 他 很 期 待 看 到 未 来 大 数据 对 人 
类 生活 的 影响 。 

于 昕 在 创业 之 前 ， 一 直 在 上 海 交通 大 学 的 生物 实验 室 工 作 。2012 年 ， 于 昕 离开 了 
那里 ， 回 到 济南 开始 创业 之 旅 。 经 过 几 年 的 磨 研 ， 于 昕 的 互联 网 大 数据 生物 信息 应 用 
系统 已 经 做 得 顺风 顺水 了 。2017 年 ， 他 们 公司 的 营业 额 增长 了 一 倍 。 作 为 一 名 大 数据 
从 业者 ， 他 希望 能 有 更 多 行业 应 用 落地 ， 让 所 有 人 享受 到 大 数据 的 实惠 ， 用 大 数据 造 
福 更 多 人 。 

(资料 来 源 ; http: /lwww. chinacpda. org/anlifenxi/13833. html，2018-01-03. ) 


7.4 大 数据 在 其 他 领域 的 应 


NS 价值 得 以 体现 。 在 物流 领 
祭 ， 在 汽车 行业 ,融合 大 数据 
RAT 以 获得 更 贴心 的 服务 ;在 公共 管 
在 教育 领域 ， 越 来 越 多 的 基于 大 数据 的 


大 数据 技术 已 经 融入 社会 生产 和 生活 的 方 方 面 
域 ， 基 于 大 数据 技术 的 智能 物流 有 效 提 升 了 物流 系统 
技术 的 “无 人 汽车 ”和 车 联网 保险 精准 定价 


理 领域 ， 可 以 借助 大 数据 更 好 地 处 理 突 发 
应 用 推动 了 教育 的 变革 。 


7.4.1 大 数据 与 智慧 物流 


~ 


于， 
智慧 物流 是 大 数据 在 ni 人。 间 滋 知 
大 数据 、 物 联网 和 云 计 委 颖 信息 技术 ,使 物流 又 统 能 鲍 实 现 物流 ee 
资源 的 优化 调度 和 着 数 配 秆 及 物流 系统 效 疙 的 妨 开 。 大 数据 技术 0 全 于 生 吉 向 
是 智能 物流 发 量 重 淖 装 用 的 基础 和 核心 S 知 注 行 业 在 货物 流转 、 全 和 
车 辆 追踪 、 爷 祖 半 着 个 环节 中 都会 产生 海量 数据 ， 分 析 这 些 物流 - 
数据 有 助 于 人 们 深刻 认识 物流 活动 背后 的 规律 ， 优 化 物流 过 程 ， 提 升 物流 效率 。 

1. 智慧 物流 的 发 展现 状 


智慧 物流 大 体 可 分 为 两 类 : 一 类 是 智慧 物流 硬件 技术 ,包含 通用 的 智慧 数据 处 理 硬 
件 技术 和 专用 的 物流 硬件 技术 ; 另 一 类 是 智慧 物流 软件 技术 ,包含 通用 的 数据 处 理 软件 
和 专用 的 物流 数据 处 理 软件 。 

通用 的 智慧 物流 硬件 技术 主要 是 构成 计算 机 系统 的 各 种 通用 的 物理 设备 ,包括 存储 
所 需 的 外 部 设备 。 专 用 的 智慧 物流 硬件 技术 主要 指 为 物流 作业 而 研发 的 特定 硬件 ， 主 要 
包括 识别 条 码 的 扫 码 枪 、 自 动 化 输送 设备 、 自 动 化 分 拱 设 备 、 堆 吉 机 、 输 送 机 等 。 硬 件 
的 配置 应 满足 整个 智慧 物流 系统 的 需要 。 

智慧 物流 软件 技术 主要 包括 操作 系统 、 智 慧 物流 系统 及 应 用 程序 。 智 慧 物 流 管理 系 
统 是 智慧 物流 系统 的 核心 软件 ,在 操作 系统 的 支持 下 工作 ， 解决 科学 地 组 织 、 存 储 、 获 
取 和 维护 数据 问题 。 




























2. 智慧 物流 的 作用 


智慧 物流 具有 以 下 三 个 作用 。 

(1) 提 高 物流 的 信息 化 和 智能 化 水 平 。 包 括 库存 的 确定 、 运 输 道路 的 选择 、 自 动 跟踪 
的 控制 、 自 动 分 拣 的 运行 、 物 流 配送 中 心 的 管理 等 问题 ， 而 且 物 品 的 信息 也 将 存储 在 特 
定数 据 库 中 ， 并 根据 特定 的 情况 作出 智能 化 的 决策 和 建议 。 

(2) 降 低 物流 成 本 和 提高 物流 效率 。 由 于 交通 运输 、 仓 储 设施 、 信 息 通信 、 货 物 
包装 和 搬运 等 信息 的 交互 ， 可 以 利用 物 联 网 技术 集中 调度 物流 车 辆 ， 有 效 提高 运输 
效率 ; 利用 超 高 频 RFID 读 写 器 实现 仓储 进出 库 管理 ， 可 以 快速 识别 货物 的 进出 库 情 
况 ; 利用 RFID 读 写 器 建立 智能 物流 分 拣 系 统 ， 可 以 有 效 提高 生产 效率 并 保证 系统 的 
可 靠 性 。 
(3) 提 高 物流 活动 一 体 化 水 平 。 通 过 整合 物 联网 相关 技 栋 仿 集 成 分 布 式 仓储 管理 
A 环节 全 流程 一 体 化 


管理 模式 ， 
3. 基于 大 数据 技术 的 智 直 物流 设计 六 


01) 数据 的 传输 与 共享 。 借 助 大 数据 技术 流 首先 要 解决 的 就 是 企业 信息 流通 


通畅 的 问题 ， 在 整个 物流 信息 交换 过 程 镍 了 陆 要 实现 企业 的 供 货 方 、 采 购 方 、 政 府 工 商 
部 门 、 物 流 企业 的 运输 部 门 等 的 信息 上 
































E。 将 各 种 数据 平台 中 的 数据 整合 在 一 起 ， 
人 





数据 异 构 问 题 。 





(2) 物 流 信息 实 时 跟 踊 王 借助 云 计算 的 术 、 物 联网 技术 及 卫星 定位 技 
功能 。 车 辆 和 货物 信息 可 通过 物 联 


术 ， 能 轻松 实现 运输 、 货 物 跟 踪 及 安 
网 技术 实时 采集 ， 网 上 传 至 智 帮 ， 最 后 利用 相应 的 算法 实现 车 辆 的 优 
化 调度 和 货 理 。 对 货运 车 辆 实 勿 是 听 监 控 ， 大 幅度 提高 被 监控 车 辆 的 安全 系 
数 ， 保 障 各 方面 的 安全 性 。 

53) 数据 的 收集 与 分 析 处 理 。 基 于 云 平 台 的 数据 技术 可 对 收集 的 客观 原始 数据 进行 数 
据 挖掘 、 模 糊 分 析 及 预测 等 ， 较 深入 地 分 析 和 挖掘 对 企业 有 用 的 数据 信息 ， 利 用 相关 的 
数理 统计 模型 分 析出 有 助 于 决策 的 信息 ， 用 于 物流 数据 统计 分 析 、 最 佳 配送 路 径 分 析 、 
物流 经 济 发 展 趋势 预测 等 。 例 如 ， 京 东 商 城 借助 大 数据 技术 与 数学 方法 ， 可 以 演示 实时 
的 数据 信息 ， 及 时 了 解 企 业 的 运行 状况 ; 实时 地 分 析 整 个 物流 过 程 ， 及 时 预 估 和 缩短 企 
业 的 送 货 时 间 ; 合理 地 建立 可 行 的 站 点 以 最 优化 配送 路 程 。 

4. 智慧 物流 的 应 用 


智慧 物流 有 着 广泛 的 应 用 ， 国 内 许多 城市 围绕 智慧 港口 、 多 式 联运 、 冷 链 物 流 、 城 
市 配送 等 方面 ， 着 力 推进 物 联 网 在 大 型 物流 企业 、 大 型 物流 园区 的 系统 级 应 用 。 将 RFID 
技术 、 定 位 技术 及 相关 的 软件 信息 技术 集成 到 生产 及 物流 信息 系统 领域 ， 探 索 利 用 物 联 
网 技术 实现 物流 环节 的 全 流程 管理 ， 开 发 面向 物流 行业 的 公共 信息 服务 平台 ， 优 化 物流 
系统 的 配送 中 心 网 络 布局 。 分 布 式 仓 储 管理 及 流通 渠道 建设 能 够 最 大 限度 地 减少 物流 环 
节 、 简 化 物流 过 程 ， 能够 提高 物流 系统 的 快速 反应 能 力 。 此 外 ,通过 跨 领 域 信息 资源 整 

















合 ， 建 设 基于 卫星 定位 、 视 频 监 控 、 数 据 分 析 等 技术 的 大 型 综合 性 公共 物流 服务 平台 ， 
发 展 供应 链 物流 管理 。 大 数据 为 供应 链 物流 管理 带 来 的 价值 如 图 7. 9 所 示 。 
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减少 紧急 订单 量 2 
----- K 
优化 库存 以 提高 资本 效率 SS 
图 7.9 ud 
7.4.2 大 数据 与 汽车 行业 2Ryv 
如 今 ， 汽 车 行业 发 展 进 入 新 的 阶 动 化 、 智 能 化 、 互 联 化 成 为 趋势 。 而 基于 互 
联 化 ， 汽 车 行业 成 为 大 数据 的 生 半 源 车 行业 迈 入 也 据 时 代 ， 而 大 数据 时 代 也 大 
进程 。 在 大 数据 据 代表 着 财富 ， 谁 优先 掌 


大 加 快 了 汽车 产业 互联 化 、 
握 数据 ， 谁 就 能 把 握 市 场 趋 儿 分 在 竞争 中 赢得 一 席 

1. 大 数据 与 车 联网 

TE TE 
感 器 技术 、 通 篇 搁 术 、 数 据 处 理 技术 、 网 络 技术 、 自 动 控制 技术 、 信 息 发 布 技术 等 有 机 地 运 
用 于 整个 交通 运输 管理 体系 ， 从 而 建立 起 一 种 实时 、 准 确 、 高 效 的 交通 运输 综合 管理 和 控制 
系统 ， 可 以 进一步 分 为 汽车 导航 、RFID 设备 、 汽 车 电子 、 交 通信 息 化 和 车 联网 应 用 等 几 大 
子 业务 。 实 际 上 ， 车 联网 的 应 用 价值 不 仅 限 于 交通 。 车 辆 每 年 形成 的 近 千 亿 条 “时 空 *”“ 时 
间 ”“ 车 ”*“ 驾 驶 员 身 份 特征 ”等 信息 ,构成 了 宝贵 的 “ 涉 车 信息 资源 ”大 数据 。 车 联网 大 数 
据 可 提供 面向 公安 、 城 建 、 环 保 、 税 务 、 保 险 、 车 主 领域 的 34 种 功能 和 78 项 服务 ， 包 括 控 
制 交通 拥堵 、 停 车 难 、 交 通 违章 、 後 事 逃 竟 、 套 牌 车 、 汽 车 尾气 污染 等 问题 的 公益 服务 和 非 
公益 性 的 商业 服务 。 车 联网 大 数据 拼图 如 图 7. 10 所 示 

2. 大 数据 与 自动 驾驶 技术 

自动 驾驶 汽车 的 传感器 包括 高 智能 的 摄像 头 、 激 光 雷 达 等 ， 通 过 这 些 技 “ 国 ; 
术 感知 到 各 种 情况 ， 如 人 与 车 在 路 上 的 位 置 、 速 度 、 方 向 ， 局 部 天 气 情况 、 
路 面 情况 ,道路 变化 情况 等 。 这 些 信息 被 传 到 云端 ， 在 云端 作 进 一 步 的 融 ”国生 
合 、 机 器 学 习 、 分 析 等 ， 然 后 将 这 些 信息 下 发 到 即将 到 达 该 区 域 的 车 辆 ，【 王 分 外 六 内 
同时 贡献 于 高 精度 实时 交通 。 无 论 是 传感器 还 是 云 服 务 ， 对 自动 驾驶 技术 自动 驾驶 汽车 】 
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来 说 都 是 必 不 可 少 的 。 自 动 驾 驶 技术 和 无 人 驾驶 技术 都 需要 数据 处 理 能 力 ， 单 纯 依 赖 传 
感 器 、 摄 像 头 而 没有 数据 化 是 无 法 实现 的 。 依 靠 大 数据 技术 ， 处 理 数 据 的 效率 得 到 了 质 
的 提升 。 












上 车 辆 故障 、 故 障 码 记录 
2. 车 况 状态 


3. 油 、 水 、 电 、 门 窗 灯 
4- 位 置 、 轨 迹 数据 
5. 车 挡 、 历 史 数据 


6. 车 况 指 数 
7. 车 内 配置 及 车 外 环境 


1. 手机 号 码 CE 

1, 年 龄 、 性 别 、 教 育 程度 

内 置 数据 验 、 驾 驶 记录 

be 机 型 、 消 费 模型 7 
App 框 架 NN ” 


3 位 置 与 车 辆 关系 
6. 用 户 手机 理念 行为 
(Mind Identity, MD 
了 -手机 使 用 习惯 


之 六 启 、 守 证 入 后 服 务 

3 汽 修 汽配 [SS 

4 二 外 放 革 信和 痛 涉 车 产业 链 

和 代 驾 、 道 路 救援 
油 站 、 停 车 场 、4S 服 务 
















6. 信用 水 平 、 收入 水 平 












a 而 谷歌 是 该 领域 的 技术 领 


跑 者 $e he 
在 高 速 公 、 但 怕 时 还 无 法 ea 
谷歌 自如 车 系统 可 以 同时 对 数 百 个 目标 保持 检测 ， 包 括 行 人 、 公 共 汽 车 、 骑 


车 者 、 停 车 指示 牌 等 。 谷 歌 自动 驾驶 技术 的 原理 如 图 7. 11 所 示 。 车 项 上 的 激光 雷达 发 射 
645 束 激光 射线 ， 当 激光 射线 碰 到 车 辆 周围 的 物体 时 会 反射 回来 ， 由 此 可 以 计算 出 车 辆 与 
物体 的 距离 ， 同时， 在 汽车 底部 有 一 套 测 量 系统 ， 可 以 测量 出 车 辆 在 三 个 方向 上 的 加 速 
度 、 角 速度 等 数据 ， 并 结合 全 球 定位 系统 (Global Positioning System，GPS) 数 据 计 算 车 
辆 的 位 置 。 这 些 数据 与 车 载 摄像 机 捕获 的 图 像 一 起 被 输入 计算 机 ， 大 数据 分 析 系 统 能 够 
以 极 快 的 速度 处 理 这 些 数 据 。 这 样 ， 系 统 就 可 以 实时 探测 周围 出 现 的 物体 ,不同 汽 车 间 
甚至 能 够 进行 相互 交流 ， 了 解 附近 其 他 车 辆 的 行进 速度 、 方 向 、 车 型 、 驾 驶 人 水 平等 ， 
并 根据 行为 预测 模型 对 附近 汽车 的 突然 转向 和 制 动 行为 及 时 做 出 反应 ,迅速 地 做 出 各 种 
车 辆 控制 动作 ,引导 车 辆 在 道路 上 安全 行驶 。 

随 着 自动 驾驶 技术 的 不 断 发 展 ， 未 来 汽车 将 配置 更 多 的 红外 传感器 、 摄 像 关 和 激光 
雷达 ， 这 也 意味 着 将 会 生成 更 多 的 数据 。 大 数据 分 析 技 术 将 帮助 自动 驾驶 汽车 系统 做 出 
更 智能 的 驾驶 动作 决策 ， 比 人 类 驾驶 更 安全 、 更 舒适 、 更 节能 环保 。 


























GPS 定位 装置 






激光 雷达 
接收 卫星 信号 并 
实时 感应 周边 环境 ， k 
形成 高 消 立体 地 图 进行 定位 
前 视 摄像 头 超声 波 传感器 
负责 识别 前 方 障碍 物 、 辅助 维持 车 辆 与 周边 物体 
交通 灯 、 道 路 方向 、 的 距离 
地 形 和 标 
毫米 级 雷达 执行 控制 设 
负责 前 方 车 辆 速度 、 搞 扣 交角 全 科 ， 代 利 如 名 
相互 间距 离 等 的 测量 人 控制 车 辆 
图 7.11 谷歌 自动 驾驶 汽车 技术 的 原理 
鸭 >》 [ 闸 访 实 骨 7 -9 人 


大 数据 和 车 联网 在 
传统 的 车 险 定 价 模式 存在 一 二 人 
于 新 车 购置 价格 ,但 是 由 于 驾驶 地 点 | 驾驶 里 程 的 不 同 ， 实 时 出 险 概率 和 赔 


付 概率 存在 巨大 差异 。 _ 
根据 车 险 发 展 阶段 的 不 同 fee led 
0) 保 额定 价 ; 了 自 根据 “新 车 定 保费 ， 忽 略 了 “从 车 ”与 


从 人 ”的 差异 性 。 
ee 和 计算 方式 根据 i tn 同 品牌 


车 辆 的 维修 成 sr 系数 ) 
(3) 使 用 Be tt 行为 数据 ， 如 行驶 里 程 、 时 间 、 区 域 及 驾驶 
模 


习惯 等 ， 建 模 开 分 析 驾 驶 行为 背后 的 风险 ， 进 而 设计 保费 。 

使 用 定价 保险 (Usage Based Insurance，UBI) 是 根据 驾驶 行为 蕴藏 的 风险 进行 个 性 化 
定价 。 通 过 对 车 主 、 车 型 信息 及 历史 理赔 记录 等 基础 数据 进行 分 析 ， 保 险 公司 能 够 对 车 
主 出 险 的 概率 作出 粗略 的 描述 ,而 通过 分 析 车 载 设备 、 车 主 驾 驶 行为 和 习惯 数据 ,保险 
公司 能 够 基于 海量 驾驶 数据 对 车 主 在 驾车 过 程 中 的 风险 作出 更 准确 的 度量 ， 从 而 对 每 位 
车 主 的 车 险 费 率 进行 更 合理 的 定价 。 表 7. 3 为 保险 公司 的 个 性 定价 过 程 中 存储 并 处 理 的 数 
据 。 图 7.12 为 保险 公司 个 性 化 定价 的 过 程 。 






表 7.3 保险 公司 的 个 性 定价 过 程 中 存储 并 处 理 的 数据 














数据 类 型 描 述 

基本 信息 车 牌号 、 车 型 、 车 主 资料 等 

事件 信息 上 点火/ 熄火、 低 电压 、 磁 撞 、 拖 吊 、 和 总 速 、 超 速 等 
故障 码 当前 故障 码 、 历 史 故 障 码 等 














续 表 





数据 类 型 描 述 

车 辆 评分 、 车 辆 诊断 系统 (On Board Diagnostic，OBD) 历 史记 录 、 平 均 油 耗 、 
行驶 统计 数据 等 

转速 、 时 速 、 耗 油 量 、 行 驶 里 程 、 剩 余 油 量 、 百 公里 油耗 、 电 压 、 水 温 、 大 




















人 气压 力 、 进 气 湿度 、 空 气流 量 、 故 障 数量 、 油 门 位 置 等 
车 辆 轨迹 分 段 信 息 、GPS 历史 记录 、 行 驶 记录 统计 等 

GPS 信息 经 度 、 纬 度 、 角 度 、 定 位 时 间 、 定 位 基站 信息 等 

绑 定 信息 绑 定 的 本 机 终端 识别 号 等 

扩展 信息 购买 信息 、 保 险 信息 、 违 章 信息 等 














欢 
NO 图 7.12 保险 从 所 个 性 化 定价 的 过 各 
人 
据 需 求 定 制 保险 服务 ,提高 理赔 效率 和 使 信息 透明 化 ， 获 取 增 值 服务 (盗窃 找 回 、 事 
故 预警 或 信息 娱乐 )。 对 保险 公司 而 言 ，UBI 让 实时 风险 评估 与 精准 定价 成 为 可 能 。 
保险 公司 还 可 以 主动 选择 低 风险 驾驶 人 ,精简 理赔 管理 并 主动 预防 理赔 事故 的 发 生 。 
另外 ,提供 差异 化 的 产品 与 服务 有 助 于 保险 公司 打造 特色 、 获 取 增 值 收益 。 但 考虑 
到 政策 、 数 据 积累 和 对 行业 盈利 的 影响 ，UBI 产 品 与 定价 存在 不 确定 性 。 全 球 范围 
内 ，UBI 车 险 规模 一 直 稳 步 增长 ， 但 在 大 多 市 场 中 的 渗透 率 不 足 1%。 全 球 最 成 功 的 
UBI 市 场 在 意大利 和 英国 ， 这 是 价值 驱动 的 结果 。 英 国 年 轻 驾 驶 人 或 有 不 良 驾 驶 记 
录 者 的 保费 过 高 ，UBI 可 以 显著 降低 车 险 价格 ; 意大利 车 险 欺 诈 严 重 , 需要 UBI 技 
术 予 以 辅助 。 
鉴于 物 联 网 建设 需要 大 规模 的 设备 投入 ,保险 公司 需 广 泛 开展 生态 系统 合作 ,与 设 
备 商 、 服 务 商 、 通 信 运 营 商 联合 ,合作 推出 某 项 产品 或 服务 ,实现 多 方 共 赢 。 尽 管 保险 
公司 并 非 跨 界 合作 的 天 然 载体 ,但 应 积极 努力 扮演 生态 圈 的 推动 者 。 
(资料 来 源 : http: /www. sohu. com/a/74951363 _ 361162，2016-05-12. ) 








Ee 大 数据 应 用 


7.4.3 大 数据 与 公共 管理 


大 数据 在 公共 管理 中 发 挥 着 日 益 重 要 的 作用 ， 主 要 体现 在 交通 、 反 人 娩 和 天 气 预 测 等 
领域 。 

1. 大 数据 与 交通 

随 着 交通 系统 的 快速 发 展 ， 交 通 已 经 成 为 人 们 生活 中 必 不 可 少 的 部 分 。 随 着 人 口 的 
快速 增长 、 城 市 中 车 辆 数目 的 激增 ， 人 们 生活 日 益 便利 的 同时 ,产生 了 一 系列 问题 。 交 
通 拥堵 、 运 输 能 力 失衡 和 频繁 发 生 的 交通 事故 已 经 成 为 道路 网 络 中 亚 待 解决 的 问题 。 

遍布 在 城市 各 个 角落 的 智能 交通 基础 设施 (如 摄像 头 、 感 应 线圈 、 射 频 信号 接收 器 )， 
每 时 每 刻 都 在 生成 大 量 感知 数据 ， 这 些 数据 构成 了 智能 交通 大 数据 。 利 用 事先 构建 的 模 
型 对 交通 大 数据 进行 实时 分 析 和 计算 ,就 可 以 实现 交通 实时 监 蓄 A 交通 智能 、 公 共 车 辆 
管理 、 旅 行 信息 服务 、 车 辆 辅助 控制 等 应 用 。 以 交通 实时 小 绘制 实时 路 况 信 息 
站 园 的 难 避 并 个 在 于 次 隐 从 刚 主 吉 的 部 态 也 寺 地 国 > 并 分 析 处 理 实时 反馈 的 
海量 动态 GPS 点 信息 。GPS 点 信息 通常 由 时 间 、 精 度 外 :个 字段 组 成 ， 高 频 采 样 的 
en 
度 ， 并 完整 重 现 用 户 的 出 行 轨迹 。 由 于 驾驶 车辆 对 道路 的 占用 空间 是 不 可 重 释 的 ， 因 此 


只 需 掌握 特定 道路 上 足够 密度 的 GPS 点 仿 乱 N 谣 能 够 实时 地 重 现 该 道路 的 占用 情况 。 由 
此 可 见 ， 绘制 相关 地 图 的 关键 是 获 PS 点 信息 。 
景 公众 





























以 高 德 地 图 为 例 ， 数 据 来 源 数据 和 行 4 据 。 用 户 回 传 的 数据 为 公 
共 数 据 ， 占 数据 总 量 的 54 6%> 户 每 日 共计 发 出 定位 请 求 ， 产生 的 回 传 数据 
增 量 为 TB 量 级 。 行 业 溪 如 与 长 途 客车 等 的 行业 合作 ， 以 置 
换 和 购买 的 方式 获得 相关 行 亚 车 辆 的 GPS 数据 通过 实时 数据 处 理 系 统 对 大 量 的 分 布 式 
消息 进行 挖掘 与 计算 出 每 条 道中 4 速度 ， 青 结合 道路 等 级 ,呈现 出 道路 
不 同 路 段 处 的 优 寻 拥堵 状态 。 

绘制 实时 地 图 使 导航 服务 厂家 能 够 基于 实时 拥堵 状况 优化 导航 路 线 ， 避 开 拥堵 
路 段 ， 为 用 户 节省 行驶 时 间 。 同 时 ， 将 实时 变化 的 路 况 信息 作 为 研究 对 象 ， 通过 分 析 一 
定时 段 、 地 点 的 实时 路 况 信息 变化 趋势 ， 发 布道 路 交通 数据 报告 。 

2. 大 数据 与 反 枣 


从 20 世纪 后 半 叶 开始 ， 慌 怖 主义 活动 便 成 为 威胁 人 类 公共 安全 的 主要 危害 之 一 。 各 
国 通过 长 期 的 反恐 实践 与 思考 。 对 恐怖 活动 的 定义 达成 了 共识 。 即 “致使 平民 或 武装 冲 
突 情况 下 未 积极 参与 军事 行动 的 任何 其 他 人 员 死 亡 或 对 其 造成 重大 人 身 伤害 、 对 物质 目 
标 造成 重大 损失 的 任何 行为 ， 以 及 组 织 、 策 划 、 共 谋 、 教 唆 上 述 活动 的 行为 "。 可 见 ， 愁 
怖 活动 最 主要 的 特征 是 其 对 公众 所 成 普遍 恐慌 和 不 安 。 

反 怒 工 作 的 先决 条 件 是 拥有 大 量 的 数据 ,数据 的 来 源 直接 影响 到 情报 分 析 的 其 他 步 
了 又。 通常 反 恕 情 报 数据 主要 由 人 工 情报 数据 和 开源 情报 数据 组 成 。 人 工 情报 数据 相对 准 
确 , 但 获取 数据 的 风险 较 大 、 成 本 较 高 ; 而 开源 情报 数据 的 获取 比较 容易 ， 但 技术 要 求 
相对 较 高 。 在 互联 网 时 代 ， 慌 怖 分 子 在 网 上 的 一 切 活动 都 会 留 下 痕迹 ， 各 大 、 中 型 城市 
的 监控 网 络 会 捕捉 到 这 些 数 据 ， 为 反恐 情报 的 收集 与 处 理 提供 了 广泛 的 数据 来 源 ， 为 反 














































恐 情报 分 析 提 供 了 大 量 的 数据 支持 。 另 外 ， 新 时 期 的 国家 反 丽 工作 需要 基于 人 工 智能 、 
机 器 学 习 、 模 式 识别 等 基本 理论 ， 借 助 强大 的 数据 挖掘 能 力 ， 引入 神经 网 络 、 决 策 树 算 
法 等 ， 从 海量 数据 源 中 挖掘 人 物 与 事件 之 间 的 因果 关系 ， 进 而 预测 相关 实体 的 行为 结 
果 。 因 此 ， 从 战略 运用 角度 看 ， 大 数据 反恐 是 数据 获取 、 数 据 挖掘 理论 研究 与 反恐 实 
践 研 究 的 有 效 延 伸 ; 从 战术 运用 角度 看 ， 大 数据 在 海量 数据 获取 、 存 储 、 处 理 等 方面 
的 技术 突破 ,能 够 满足 反恐 工作 对 多 样 、 海 量 、 快 速 数据 的 获取 、 存 储 、 处 理 与 分 析 
要 求 。 

首先 ， 大 数据 与 国家 反 恺 需求 紧密 融合 ， 二 者 相辅相成 、 互 相 促进 。 反 恺 部 门 可 以 
充分 挖掘 和 利用 大 数据 的 巨大 潜力 ， 将 大 数据 这 种 符合 时 代 背 景 的 大 战略 、 大 思维 运用 
到 预测 /监测 恐怖 组 织 活动 、 数 据 可 视 化 分 析 等 具体 工作 中 , 包括 获取 开源 情报 数据 与 人 











[情报 数据 、 数 据 预 处 理 、 数 据 挖掘 、 形 成 知识 情报 和 可 视 化 网 络 ， 进 而 对 恐怖 活动 进 
行动 态 预测 和 监控 ， 最 后 清晰 把 握 恐 怖 组 织 的 各 种 动向 并 形 告 。 反恐 大 数据 应 
用 框架 如 图 7. 13 所 示 。 SS 
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图 7.13 反恐 大 数据 应 用 框架 


其 次 ,监控 铠 怖 组 织 的 资金 账户 和 恺 怖 分 子 的 交流 信息 。 恺 怖 组 织 在 策划 和 恐 怖 事件 
过 程 中 ， 必 须 拥 有 一 定 资金 才能 购买 武器 、 招 募 新 成 员 、 传 输 信 息 。 在 此 过 程 中 ， 疏 怖 
组 织 的 所 有 交易 数据 和 活动 数据 都 会 在 网 络 上 留 下 痕迹 ， 因 此 对 可 疑 恐 怖 组 织 或 和 怖 分 
子 的 资金 账户 进行 监测 显得 尤为 重要 。 根 据 其 资金 账户 的 异常 变动 ， 反 慌 部 门 可 以 对 非 
法 交易 活动 进行 监测 ， 也 可 以 联合 其 他 部 门 冻结 其 账户 。 恺 怖 组 织 策 划 慌 怖 事件 时 必然 
会 通过 电话 、 网 络 等 方式 进行 信息 交流 ,加强 对 恐怖 分 子 交 流 信息 的 监测 ， 也 将 为 反恐 
部 门 提供 有 力 的 数据 与 情报 支持 。 
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最 后 ， 对 恐 怖 组 织 活 动 数据 进行 可 视 化 分 析 ， 反 映 慌 怖 组 织 网 络 变动 。 对 恺 怖 组 织 
数据 进行 可 视 化 分 析 ， 是 解释 与 发 现 恺 怖 组 织 网 络 结构 特点 或 变动 规律 的 一 种 技术 手段 。 
通过 对 分 析 结 果 的 可 视 化 分 析 ， 能够 以 更 直观 的 方式 反映 恐怖 组 织 网 络 的 变动 情况 ,也 
易 被 反恐 情报 人 员 理 解 和 接受 。 例 如 , “9 . 11 事件 ”后 ， 某 情报 公司 根据 开源 情报 ， 收 
集 了 所 有 参与 事件 的 恐怖 分 子 信息 ， 绘 制 了 该 事件 的 可 视 化 网 络 图 ， 向 美国 反 恺 部 门 清 
晰 展示 了 这 些 恐 怖 分 子 参与 事件 的 整个 过 程 及 其 网 络 的 聚集 过 程 ， 为 深入 了 解 “基地 ” 
组 织 提供 了 重要 参考 。 

充分 把 握 和 运用 大 数据 的 海量 、 快 速 、 多 样 的 特征 ， 能 够 简化 反 恺 工作 流程 ， 提 高 
敏捷 度 和 智能 化 水 平 ， 这 些 工 作 的 价值 将 获得 几何 倍数 级 的 提升 。 

3. 大 数据 与 天 气 预 测 


和 工作 领 直 主观 娄 的 人 人 没有 得 以 体现 ， 虽 信和 光 办 可 了 PB 人 的 
象 观 测 历史 资料 ， 但 由 于 人 们 更 关注 未 来 天 气 的 发 展 ， 因 性 这 些 押 喝 资 料 在 天 气 预 报 领 
域 鲜 有 人 问津 ， 然 而 这 些 数据 都 是 亟待 开发 的 宝藏。 
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以 美国 的 一 家 大 数据 公司 EarthRisk 为 例 ， 他 介 域 是 向 农业 从 事 者 及 保险 公司 
提供 早期 的 极端 天 气 预测 ， 通 过 融合 大 数据 和 天 们 研发 出 一 款 名 为 TempRisk 的 
产品 ， 能 够 通过 对 60 年 内 历史 天 气 数据 的 分 超过 820 亿 次 的 计算 ， 较 准确 地 预测 
未 来 40 天 内 的 极端 温度 情况 。 

TempRisk 的 统计 预测 过 程 是 
型 采用 以 往 天 气 模式 中 可 理解 
球 数据 源 中 提取 包括 能 风度 3 
成 分 分 析 法 ， 从 数据 源 哈 授 取 
模式 变异 中 的 E TempRisk 统计 预测 烧 理 中 ， 关 键 的 算法 层 是 在 几 个 统计 预测 
方法 的 基础 全 it 型 、 混 合 密度 网 络 和 人 工 神经 网 络 三 个 
nt. A 模型 体现 了 天 气 模型 和 温度 异常 结果 的 线性 相关 关系 ， 后 两 个 模型 
则 体现 了 两 者 的 非 线性 关系 。 

这 些 海量 的 气象 数据 属于 专业 感知 领域 ， 所 含 信息 量 丰 富 且 只 包含 与 气象 有 关 的 信 
息 , 但 这 并 不 意味 着 其 价值 已 被 挖掘 玛 尽 ， 气 象 数据 “外 部 关联 价值 ”的 挖掘 应 当 出 现 
在 其 他 专业 领域 数据 的 综合 分 析 过 程 中 。 


鸭 > [站 该 案 亿 7 -7 





I 预测 因子 。 与 数值 预测 方法 一 致 ，TempRisk 模 
算法 转化 为 气 况 的 概率 密度 函数 。 从 北 半 
度 、 温 度 、 ST 地 表 温 度 等 天 气 指数 。 采 用 主 

; 式 , 而 这 些 天 气 模式 能 够 解释 天 气 




















大 数据 在 火灾 风险 预测 中 的 应 用 
火 眼 是 苏州 消防 依托 大 数据 及 人 工 智 能 技术 开发 的 火灾 风险 预测 系统 。 在 苏州 市 防 
火 监督 力量 极为 有 限 的 情况 下 ， 火 眼 系 统 不 需要 增加 人 力 投入 , 即 可 精确 预测 火灾 风险 ， 
大 大 提高 了 火灾 防 控 工作 的 精准 度 ， 实现 了 “数据 强 消 ， 预知 预警 "。 根 据 系统 实际 运行 
数据 统计 ， 对 苏州 9. 6 万 座 建 筑 进 行 大 数据 分 析 后 ， 火 眼 系统 提前 预测 风险 最 高 的 5% 建 
筑 ， 占 实际 发 生火 灾 数 的 42 ;， 而 火 眼 预测 风险 最 低 的 30% 建 筑 , 仅 占 实际 发 生火 灾 数 
的 3%， 预 测 精准 度 较 高 。 








1. 以 亿 量 级 的 数据 云 为 依托 

火 眼 系统 预测 的 前 提 是 具有 完备 和 可 靠 的 数据 资源 。 在 重点 整合 既 有 消防 数据 、 做 
实 做 细 火 灾 数 据 的 同时 ， 苏 州 消防 主动 与 公安 、 安 监 、 交 通 、 工 商 、 住 建 等 部 门 对 接 。 
目前 ， 苏 州 市 消防 安全 委员 会 已 与 26 个 部 门 建立 消防 大 数据 联席 会 议 制度 ， 为 汇集 数据 
打通 路 径 ， 建 立 了 与 消防 安全 管理 有 关 的 数据 库 ， 形 成 全 市 统一 的 “消防 数据 云 ”。 

通过 对 社区 警 务 、 火 警 火 灾 二 合 一 系统 、 工 商 数据 库 、 安 监 数据 库 及 交通 数据 库 等 
平台 的 数据 采集 ,“ 消 防 数 据 云 ”整合 到 的 与 消防 相关 的 数据 资源 已 达 5 亿 条 ， 形 成 了 企 
事业 单位 、 建 筑 、 火 灾 、 隐 患 、 危 险 源 五 大 基础 业务 库 。 

数据 的 采集 涵盖 面 广 ， 也 有 精细 化 要 求 。 一 家 单位 的 基础 数据 包含 单位 信息 、 建 筑 
信息 、 历 史 火 灾 人 信息、 历史 检查 隐患 记录 及 其 他 相关 数据 五 大 方面 ， 而 仅 建筑 信息 一 项 
Test 





可 容纳 人 数 等 。 

数据 又 有 静态 和 动态 之 分 ， 火 眼 系统 所 依托 的 大 数 后 台数 据 会 随 着 实际 
变化 实时 更 新 。 例 如 ， 建 筑 数 据 可 以 归 入 静态 数据 ， 施 检查 、 联 网 检测 、 生 产 
流程 数据 等 就 属于 动态 数据 。 目 前 苏州 危险 化 学 品 并 蕊 爆 品 的 存储 仓库 、 储 运 码头 
均 已 实现 数据 的 实时 推送 、 实 时 展示 。 全 市 近 6| 仑 险 化 学 品 车 辆 及 在 苏州 境内 运行 
的 危险 化 学 品 车 辆 也 均 能 实时 定位 ， 对 化 学 品 的 种 类 、 数 量 及 驾驶 人 的 信息 
也 能 实时 学 握 。 Ke 


2, 精准 防 控 才 助 降低 火 情 a 
正 是 借助 海量 的 数据 资 淹 sr 》 te 生成 火灾 风险 预测 模型 ， 


对 所 有 建筑 进行 动态 及 量 1 pe ， 预 测 火 灾 风 险 。 
借助 火 眼 系统 ， 苏 晤 省 防 的 日 常 防火 监 式 包 发 生 改 变 。 传 统 的 安全 管理 按照 


二 点 单位 的 界定 彬 RN 将 社会 单位 分 为 性 位 、 二 级 重点 单位 、 三 级 重点 单位 
及 一 般 单位 。 SS 于 更 多 因素 的 大 菇 往 钢 测 ， 着 眼 于 火灾 风险 的 动态 化 管理 。 通 
过 火 眼 系 统 的 福光 预 测 ， 日 常 消防 安全 管 畦 有 了 更 可 靠 的 科学 引导 ， 在 不 增加 人 力 投 
入 的 情况 下 ,日 常 消防 安全 检查 工作 的 效率 得 以 大 幅 提 高 。 一 组 数据 显示 ， 针 对 苏州 
的 9.6 万 座 建筑 (包含 7800 家 消防 重点 单位 和 8. 8 万 家 规模 较 大 的 单位 )， 火 眼 预测 火 
灾 风 险 最 高 的 5% 建 筑 实际 发 生 了 42% 的 火灾 ， 火 眼 预 测 火灾 风险 最 低 的 30% 建 筑 实 
际 仅 发 生 了 3% 的 火灾 。 与 传统 的 随机 监督 抽查 模式 相 比 ， 火 眼 指导 下 的 防火 检查 可 提 
升 8 倍 精准 度 。 

在 精准 的 火灾 风险 预测 指导 下 ， 火 灾 发 生 率 显著 下 降 。 据 统计 ，2017 年 第 一 季度 
火灾 同比 减少 24 起 ,下降 24%; 第 二 季度 单位 火灾 同比 减少 46 起 ， 下降 39%。 应 用 
大 数据 预测 针对 性 检查 ,在 警力 无 增长 的 情况 下 ,隐患 发 现 量 大 幅 上 升 ， 火 灾 数 显著 
下 降 。 

3. 多 方 合力 ， 齐 抓 共管 

通过 与 消防 业务 系统 结合 ， 火 眼 系 统 生成 的 火灾 高 风险 预警 指令 可 以 同步 推送 给 消 
防 、 派 出 所 和 相关 单位 ， 以 及 各 有 关 部 门 和 县 (市 )、 乡 (镇 )、 街 道 (社区 ), 除了 能 提高 
监督 管理 的 针对 性 ， 还 能 督促 高 危 单 位 增加 检查 频次 、 开 展 隐患 自 查 和 整改 。 

“ 火 眼 2. 0 系统 ”的 动态 仪表 盘 与 消防 监督 管理 系统 、 派 出 所 警 务工 作 平 台 及 社会 单 











[rs Xe ， 


位 微 消防 服务 平台 关联 ， 接 入 每 日 防火 执法 工作 数据 、 单 位 自 查 数 据 等 ， 包 括 全 市 的 每 
日 检查 单位 数 、 单 位 自 查 数 、 发 现 隐 患 数 、 隐 患 整 改 数 、 重 大 隐患 发 现 数 、 重 大 隐患 整 
改 数 等 。 通 过 动态 仪表 盘 ， 消 防 工作 人 员 可 对 每 日 及 各 时 间 自 的 消防 检查 工作 进行 分 析 ， 
挖掘 不 同时 期 、 不 同 区 域 的 火灾 隐患 分 布 特 点 ,从 而 更 科学 地 安排 防火 监督 检查 工作 ， 
将 更 多 的 火灾 隐患 消灭 在 “萌芽 ”状态 。 

(资料 来 源 ，http: /www. szdushi. com. cn/news/201711/151175351149961. shtml，2017-11-27. ) 


7.4.4 大 数据 与 教育 行业 
传统 的 教育 兴盛 于 工业 化 时 代 ， 学 校 的 模式 映射 出 工业 化 集中 物流 的 经 济 批量 模式 
铃声 、 班 级 、 标 准 化 的 课堂 、 统 一 的 教材 、 按 照 时间 编 排 的 流水 线 场景 。 而 在 大 数据 时 


代 ， 教 育 将 呈现 别 样 的 特征 : 弹性 学 制 、 个 性 化 辅导 、 社 区 和 窗 庭 学 习 、 个 体 的 成 功 。 
mm 数据 的 新 一 轮 发 展 
也。 





高 潮 。 
司 内 对 教育 大 数据 的 研究 与 应 用 也 进入 了 快速 发 展 一 些 教育 工作 者 、 教 育 
机 构 逐 步 摸索 、 尝 试 ， 清 现 出 越 来 越 多 的 基于 大 效 所 人 ， 推 动 了 教育 的 进一步 变革 。 
移动 互联 网 时 代 ， 知 识 的 获取 变 为 以 学 生 为 中 , 必 A3jF 放 的 碎片 化 学 习 成 为 教育 发 展 的 必 
然 趋势 。 未 来 的 学 习 将 是 以 学 生 需 求 为 a 旨 和 的 教 加 学 的 模式 每 个 人 都 能 发 挥 自 
己 最 大 的 学 习 潜能 。 随 着 网 络 走 进 千 在 线 教育 任 借 其 获取 知识 的 便捷 性 、 实 时 


性 等 优势 ， 成 为 传统 教育 的 有 力 *h3 ~ 
wisey ve Open ol 的 vonc Ryan 







































发 展 迅 速 ， 对 传统 教育 产生 芝 懂 烈 的 冲击 。 国 内 及 医 风华 业 和 争 相 涉 足 该 领域 ,试图 将 各 
tio 和 -一人 全 生 堆 问 ， 慕 课 教育 也 成 为 在 线 教育 冲 出 
“红海 ”的 突破 口 ,2 人、 ~*- 

认 课 将 网 线 衣 前 科大 数据 思维 融合 部， 满足 名 校 、 名 师 、 精 品 和 免费 课程 的 需 


要 。 慕 课 平 台 开拓 了 新 的 知识 获取 某 道 帮助 学 生 获得 充足 的 教育 资源 。 通 过 记 
录 鼠 标 单 击 情况 ， 幕 课 平 台 可 以 研究 学 生 的 学 习 轨 迹 ， 发 现 不 同 的 学 生 对 不 同 知识 点 的 
反应 ， 包 括 学 习 停 留 时 间 、 某 项 内 容 的 学 习 速 度 、 正 确 率 等 ， 找 到 最 有 效 的 陈述 方式 和 
学 习 工 具 。 通 过 向 全 世界 开放 ， 让 更 多 的 学 生 在 平台 上 学 习 ， 可 以 收集 更 多 的 数据 ， 研 
究 各 个 学 生 的 行为 模式 ， 打 造 更 好 的 在 线 教育 平台 。 

幕 课 打破 了 时 空 界限 ， 让 学 生 随 时 随 都 可 以 学 习 。 总 体 来 看 ， 其 主要 价值 体现 在 以 
下 全 方面 

1. 提供 个 性 化 学 习 方 案 

互联 网 技术 的 发 展 为 人 们 提供 了 在 家 学 习 、 接 受 继续 教育 的 可 能 性 。 在 大 数据 的 环 
境 支 持 下 ， 通 过 对 幕 课 教育 学 生 选 课 偏好 、 上 课时 间 、 下 课时 间 、 每 天 学 习 次 数 、 课 程 
停留 时 间 及 作业 完成 情况 等 网 络 日 志 数 据 的 分 析 ， 了 解 学 生 在 作业 练习 、 日 常 检 测 过 程 
中 对 不 同 知识 点 的 掌握 情况 、 思 考 时 间 和 应 用 层次 等 ， 并 从 知识 难点 讲解 、 推 荐 拓展 知 
识 、 线 下 辅导 答疑 等 方面 给 予 学 生 个 性 化 的 指导 ,促使 学 生 改 进 学 习 方 法 。 




















2. 提供 全 面 的 学 习 支 持 


“大 数据 + 莫 课 ”教育 平台 在 免费 提供 课程 资源 的 基础 上 ， 更 突出 学 习 路 径 导 航 ， 为 
学 生 学 习 的 全 过 程 提供 支持 。 通 过 大 数据 技术 对 课程 进行 追踪 管理 ,课程 目标 、 学 习 主 
题 、 学 习 时 间 、 作 业 安 排 等 都 形成 规范 的 流程 ， 为 学 生 提 供 全 面 的 课程 学 习 支 持 。 授 课 
教师 根据 数据 分 析 的 结果 发 布 教 学 资源 ,组 织 教学 活动 ， 最 后 通过 系统 评判 或 同伴 互 评 
的 方式 反馈 结果 。 系 统 运用 大 数据 对 教学 反馈 进行 计算 ， 区 分 学 生 的 学 习 目 标 、 动 机 、 
背景 、 状 态 等 有 价值 的 信息 。 授 课 教师 既 可 以 根据 反馈 结果 对 共性 问题 给 予 统 一 指导 ， 
也 可 以 就 个 别 问 题 给 予 个 性 化 反馈 。 在 轻松 的 学 习 氛 围 和 先进 的 学 os 
将 获取 知识 的 学 习 和 欲望 转 化 为 主动 汲取 知识 的 学 习 行 为 ， 自 发 组 织 学 习 圈 ,与 其 他 学 
共同 交流 互动 ， 获 得 完整 良好 的 学 习 体检 。 


3. 丰富 优化 课程 资源 从 
运用 大 数据 计算 结果 还 可 以 进行 课程 营销 分 析 Kt. 生 的 学 习 过 程 、 学 习 
方式 等 进行 计算 ， 得 出 每 门 课程 的 点 击 率 、 学 习 率 等 数据 。 荣 课 运营 商 
和 课程 供应 商 从 用 户 需 求 出 发 设计 出 更 完备 的 8 a 从 而 改善 课程 设置 、 丰 
富 课程 资源 。 同 时 ，“ 大 数据 + 化 课 ”教育 平台 辽 窒 江 旬 供 客户 统计 查询 服务 和 教育 用 户 
管理 ， 即 对 学 生 学 习 数据 进行 关联 分 析 应 的 指导 建议 ， 而 这 些 又 反 过 来 影响 
着 学 生 的 课程 选择 和 学 习 行为 。 NE 
吸引 了 越 来 


在 线 教育 以 其 便捷 性 、 经 济 怕 网 络 用 户 参与 ， 它 以 巨大 的 市 
场 前 景 吸引 投资 者 加 入 其 中 , -在 禾 人 发 激烈 。 在 大 数据 时 代 ， 随 
迅速 增 大 ， 2 应 用 更 加 丰富 。 大 数据 给 教育 











是 主 






















着 社交 网 络 的 逐渐 成 熟 ， 
V0 变 了 具体 的 教育 方 塑 了 人 们 的 教育 理念 。 


NA 结 


本 章 介绍 了 大 数据 在 金融 、 互 联网 、 生 物 医 学 、 汽 车 、 物 流 等 领域 的 应 用 ， 从 中 可 
以 了 解 到 大 数据 对 人 们 上 日常 生活 的 影响 和 重要 价值 。 当 前 大 数据 已 经 触及 社会 的 每 个 角 
落 ， 并 为 人 们 带 来 各 种 欣喜 的 变化 。 人 金融 大 数据 使 客户 能 够 被 精准 细 分 和 定位 ， 真正 实 
现 以 客户 为 中 心 ; “互联 网 +” 与 大 数据 的 紧密 结合 促进 了 电子 商务 企业 的 莲 勃 发 展 ; 医 
党 大 数据 能 够 使 非 个 人 和 公共 卫生 管理 部 门 更 及 时 、 更 高 效 、 低 成 本 地 获取 医疗 健康 信 
息 和 知识 ， 调 配 公共 医疗 资源 ， 预 警 疾病 风险 因素 等 。 拥 抱 大 数据 ,合理 且 有 效 地 利用 
大 数据 ， 是 个 人 、 企 业 、 政 府 部 门 的 必然 选择 。 


SS 
篇 关键 术语 


(1) 推 荐 系统 (2) 大 数据 营销 (3) 智 慧 物流 
(4) 车 联网 (5) 自 动 驾驶 技术 








习 题 


1. 选择 题 
(1) 以 下 ( ) 不 是 大 数据 技术 在 金融 行业 客户 管理 中 的 应 用 。 
A. 客户 洞察 B. 预防 金融 犯罪 
C. 产品 购买 响应 预测 D. 客户 潜力 指数 分 析 
(2) 下 列 ( ) 不 是 智慧 医疗 的 优点 。 


A. 转 诊 时 应 做 重复 检查 

B. 促进 优质 医疗 资源 的 共享 

C. 对 病 患 的 生命 体征 、 治 疗 、 化 疗 等 信息 进行 实时 监测 
D. 实现 对 疾病 早 发 现 、 早 诊断 、 早 治疗 


(3) 在 进行 大 数据 营销 时 ， 不 能 用 于 划分 用 户 的 信息 
A, 性 别 B. 地 理 位 置 C. 健康 状 ? D. 通话 记录 


(4) 基 于 大 数据 技术 的 智慧 物流 设计 过 程 不 包 
A. 数据 的 传输 与 共享 







C,， 数 据 的 收集 与 分 析 处 理 了 水 毕 流 信 息 实 时 跟踪 管理 
(5) 车 联网 大 数据 可 提供 面向 公安 、 很 兰 保 等 领域 的 34 种 功能 ， 不 包括 ( 入 
A. 计 入 个 人 信用 记录 B. 解决 停车 难 问题 


C. 控制 交通 拥堵 > 
(6) 网 民 的 消费 行为 和 易 在 短 时 间 内 在 网 民 需 求 点 达到 最 高 时 





进行 营销 非常 重要 ， 这 销 的 ( 
A, 个 性 化 一 性 价 比 高 D. 关联 性 
2 为 新 十。 及 作 、 流 
GD) 一 个 天 统 通常 包括 三 有 入 要 关 用 户 建 模 模 闫 、 推 荐 对 象 建 模 楼 区 


和 推荐 算法 模 ( - 
(2) 大 数据 营销 的 特点 包括 单一 平台 数据 采集 、 强 调 时 效 性 、 个 性 化 和 关联 性 。 ) 
(3) 大 数据 在 零售 行业 的 应 用 主要 集中 在 发 现 关联 购买 行为 、 客 户 群 体 划分 和 整合 产 


业 链 资源 。 ) 
(4) 智 慧 物流 融合 了 大 数据 、 物 联网 和 云 计算 等 信息 技术 ， 使 物流 系统 能 够 实现 物流 

资源 的 优化 调度 和 有 效 配置 及 物流 系统 效率 的 提升 。 ( 9) 
(5) 不 同 平台 数据 异 构 的 问题 不 是 实现 智慧 物流 的 首要 问题 。 ( 和 
(6) 气 象 数据 属于 专业 感知 领域 ， 其 自身 价值 已 被 挖掘 殖 尽 。 ( ) 
3. 简 管 题 


(1) 简 述 大 数据 技术 在 金融 行业 的 应 用 。 

(2) 外 部 风险 预警 系统 可 分 为 哪 几 个 层级 ? 
(3) 简 述 大 数据 营销 的 一 般 过 程 。 

(4) 人 简 述 自动 驾驶 技术 的 原理 。 

(5) 大 数据 在 车 联网 中 的 应 用 包含 哪 几 个 方面 ? 
(6) 简 述 绘制 实时 路 况 信 息 地 图 的 关键 步骤 。 7 这 汪 和 和 灶 
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大 数据 隐私 与 安全 的 定义 熟悉 、 数 据 安全 
数据 安全 的 基本 特点 熟悉 完整 性 和 可 用 性 





影响 大 数据 隐私 与 安全 


a "Xb 据 信息 存 “9 胁 
大 数据 隐私 与 安全 问题 小 


的 分 类 Ye 区 ©、 网 络 安全 问题 、 其 他 安全 问题 


< 数据 隐私 与 安 
ml | 区 交会 次 略 、 应 用 安全 策略 、 管 理 安全 策略 

的 防护 策 
大 数据 隐 和 SS 网 数据 采集 与 存储 安全 技术 、 数 据 挖 气 安 全 技术 、 数 据 发 














的 防护 技术 布 安全 技术 、 防 范 APT 技术 
APT 技术 熟悉 APT 的 特征 及 过 程 











随 着 智慧 城市 、 智 能 家 居 、 在 线 社交 网 络 等 数字 化 技术 的 发 展 ， 人 们 的 衣食 住 行 、 健 康 
医疗 等 信息 被 数字 化 ， 可 以 随时 随地 通过 海量 的 传感器 、 智 能 处 理 设备 等 终端 进行 收集 和 使 
用 。 大 数据 在 带 来 各 种 便利 的 同时 ， 不 可 避免 地 泄露 了 人 们 的 隐私 。 本 章 主要 内 容 包 括 大 数 
据 面临 的 隐私 与 安全 问题 、 大 数据 隐私 与 安全 的 防护 策略 和 大 数据 隐私 与 安全 的 防护 技术 。 











8.1 大 数据 面临 的 隐私 与 安全 问题 


数据 具有 普遍 性 、 共 享 性 、 增 值 性 、 可 处 理性 和 多 效用 性 等 特点 ， 因 此 ， 数 据 资源 
具有 特别 重要 的 意义 与 价值 ， 大 数据 更 是 如 此 。 维 护 大 数据 的 隐私 与 安全 就 是 保护 信息 
系统 或 网 络 中 的 数据 资源 免 受 各 种 类 型 的 威胁 、 干 扰 和 破坏 ,对 大 数据 隐私 安全 问题 的 
研究 意义 重大 。 











8.1.1 大 数据 隐私 与 安全 的 定义 


1. 大 数据 中 的 隐私 


大 数据 隐私 是 指 可 确认 特定 个 人 (或 团体 ) 身 份 或 特征 ， 但 个 人 (或 团体 ) 不 愿 被 暴露 
的 敏感 信息 ， 同 时 包括 用 户 的 敏感 数据 ， 如 个 人 的 患 病 数据 、 个 人 的 位 置 轨迹 信息 、 公 
司 的 财务 信息 等 。 与 用 户 有 关 的 个 人 信息 可 分 为 三 类 : 个 人 身份 信息 、 隐 私 敏感 信息 和 
其 他 信息 。 隐 私 攻击 者 使 用 搜索 引擎 寻找 并 收集 网 络 上 有 关 某 用 户 的 个 人 信息 ， 直 到 获 
得 该 用 户 的 身份 信息 和 隐私 敏感 信息 ， 这 种 基于 搜索 引擎 的 隐私 挖掘 攻击 的 核心 过 程 如 
图 8.1 所 示 。 





Ne 
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eet 形式 。 
(在 数据 前 存储 过 程 中 对 用 户 隐私 权 造 成 的 侵犯 。 用 户 无 法 知道 个 人 数据 的 准确 存 
放 位 置 ， 非 授权 用 户 对 个 人 数据 的 采集 、 存 储 、 使 用 和 分 享 无 法 被 有 效 控制 。 

(2) 在 数据 传输 过 程 中 对 用 户 隐 私 造成 的 侵犯 。 大 数据 环境 下 数据 传输 更 多 元 化 ， 优 
统 物理 区 域 病 离 的 方法 无 法 有 效 保证 远 距离 传输 的 安全 性 ， 电 硫 泄 漏 和 窃听 是 更 突出 的 
安全 隐 吓 。 

(3) 在 数据 处 理 过 程 中 对 用 户 隐私 权 造 成 的 侵犯 。 大 数据 环境 下 基础 设施 的 胞 习 性 和 
加 密 措施 的 失效 可 能 产生 新 的 安全 风险 。 大 规模 的 数据 处 理 需要 完备 的 访问 控制 和 身 从 
认证 管理 ， 以 避免 未 经 授权 的 数据 访问 ， 但 资源 动态 共享 模式 无 颖 增加 了 管理 的 难度 ， 
三 户 劫持、 攻击 、 身 份 伪装 、 认 证 失败 、 认 证 失效 、 密 钥 丢失 都 可 能 威胁 用 户 的 数据 
安全 。 


2. 大 数据 中 的 数据 安全 


数据 安全 包括 数据 本 身 的 安全 和 数据 防护 安全 。 数 据 本 身 的 安全 是 指 采用 密码 算法 
对 数据 进行 主动 保护 ， 如 数据 保密 、 数 据 完整 性 、 双 向 强身 份 认证 等 ， 而 数据 防护 安全 
主要 采用 现代 信息 存储 手段 对 数据 进行 主动 防护 ， 如 磁盘 阵列 、 数 据 备份 等 。 




















数据 安全 具有 保密 性 、 完 整 性 和 可 用 性 三 个 基本 特点 。 

(1) 保 密 性 。 保 密 性 又 称 为 机 密 性 ， 是 指 个 人 或 团体 的 信息 不 被 其 他 不 应 获得 者 获 
取 。 许 多 软件 (如 邮件 、 网 络 浏览 器 等 ) 有 与 保密 性 相关 的 设 定 ， 以 维护 用 户 信息 的 保密 
性 。 此 外 ， 黑 客 也 可 能 导致 保密 性 出 现 问题 。 

(2) 完 整 性 。 完 整 性 是 指 在 传输 、 存 储 数 据 的 过 程 中 ,确保 数据 不 被 无 授权 者 算 改 ， 
或 在 算 改 后 能 够 被 迅速 发 现 。 在 信息 安全 领域 ,完整 性 与 保密 性 的 边界 常常 被 混淆 。 黑 
客 或 恶意 用 户 在 没有 获得 密 钥 破 解密 文 的 情况 下 ， 可 以 通过 对 密 文 进行 先行 计算 来 改变 
数值 信息 。 

53) 可用性。 可 用 性 是 保证 信息 确实 能 为 授权 使 用 者 所 用 ， 即 保证 合法 用 户 在 需要 时 
可 以 使 用 所 需 信息 。 有 违 数据 的 可 用 性 就 是 违反 有 关 数 据 安全 的 规定 。 


8. 1. 2 影响 大 数据 隐私 与 安全 的 主要 因素 1 从 
全 


相 比 于 传统 数据 的 安全 保护 ， 大 网 安全 保护 更 复杂 。 一 方 
和 面 ， 大 数据 中 包含 大 量 的 企业 运营 数 锯 作客 户 信息 、 个 人 隐私 等 各 种 



















行为 的 细节 记录 ， 增 加 了 数据 温 电 险 , 使 大 数据 面临 更 多 威胁 ; 
另 一 方面 ， 大 数据 对 信息 “完整 性 和 可 用 性 带 来 了 更 多 的 挑 


【次 坑 时 人 ， 传 统 的 安全 工具 已 。 影 响 大 数据 隐私 与 安全 的 主要 因素 
谁 对 你 的 隐私 负责 了 8. 2 所 示 。 








图 8.2 影响 大 数据 隐私 与 安全 的 主要 因素 


1. 数据 信息 存储 介质 的 损坏 

在 物理 介质 层次 上 对 存储 和 传输 的 信息 进行 安全 保护 是 数据 安全 的 基本 保障 ,物理 
安全 隐患 大 致 包括 以 下 四 个 方面 。 

51) 自然 灾害 (如 地 震 、 火 灾 、 洪 水 等 )， 物 理 损 坏 ( 如 硬盘 损坏 、 设 备 使 用 权 到 期 等 ? 
和 设备 故障 (如 停电 、 断 电 、 电 磁 干扰 等 ) 。 

(2) 信 息 泄露 。 主 要 是 指 大 数据 中 的 部 分 或 全 部 信息 被 透露 给 未 被 授权 的 用 户 、 软 件 
或 实体 ， 尤 其 是 大 数据 中 的 一 些 隐私 信息 或 关键 信息 。 

(3) 完 整 性 破坏 。 由 于 非 授权 的 增加 、 删 除 和 修改 等 操作 ,大 数据 中 的 部 分 信息 丢 
失 ， 完整 性 遭 到 破坏 。 








(4) 拒 绝 服 务 。 是 指 用 户 对 大 数据 中 一 些 资源 的 合理 访问 被 无 条 件 拒绝 。 主 要 包括 两 
种 情况 : 一 是 攻击 者 制造 一 系列 非法 的 访问 ,致使 系统 产生 过 量 负 荷 ， 导致 系统 资源 在 
合法 用 户 看 来 无 法 使 用 ， 二 是 因为 大 数据 处 理 系统 在 物理 上 或 逻辑 上 遭 到 破坏 ， 致 使 用 
户 的 合理 请 求 被 拒绝 。 

2. 恶意 威胁 

恶意 威胁 是 大 数据 安全 所 面临 的 最 大 威胁 ,会 对 大 数据 造成 极 大 危害 ,造成 机 密 数 
据 泄 露 等 无 法 挽回 的 后 果 。 恶 意 攻 击 主要 分 为 渗入 威胁 和 植 和 威胁。 

(1) 渗 和 威胁。 包括 假冒 、 旁 路 控制 和 授权 侵犯 三 类 。 假 冒 是 黑客 常用 的 攻击 方 
法 ， 是 指 系统 中 的 某 个 实体 假装 成 另 一 个 不 同 的 实体 ， 以 获取 系统 的 权限 和 特权 
劳 路 控制 是 攻击 者 寻找 系统 自身 的 缺陷 和 漏洞 ， 绕 过 系统 的 安全 防线 对 大 数据 实施 
攻击 的 恶意 行为 ;授权 侵犯 又 称 内 部 攻击 ， Ps 用 于 其 他 非 授权 的 
目的 。 

(2) 植 入 威胁。 可 分 为 木马 病毒 和 陷阱 两 类 。 本 网 Re 
不 出 的 程序 段 ， 当 该 程序 段 被 执行 时 ， ea 遭 到 破坏 ;而 陷阱 主要 是 指 
站， 四 “机 关 ”， 当 大 数据 系统 接收 
到 特定 的 输入 信息 时 ， ee 汉 1 当 一 个 用 户 登 录 大 数据 管理 的 
Re 村 就 可 以 绕 过 正常 的 口 


as。 
8. 1.3 大 数据 隐私 与 省 > 


ee a We 、 大 数据 存储 安全 问题 、 针 对 
at, 














大 数据 的 高 级 持续 2 Advanced Persis APT)、 网 络 安全 问题 和 其 他 安 
全 问题 。 


并 
1, Ph A 


大 数据 的 基础 设施 包括 存储 设备 、 运 算 设备 、 一 体 机 和 其 他 基础 软件 ,为 了 支持 大 
数据 的 应 用 ， 需 要 创建 支持 大 数据 环境 的 基础 设施 。 例如， 需要 高 速 的 网 络 来 收集 各 种 
数据 源 ， 需要 大 规模 的 存储 设备 存储 海量 数据 ， 还 需要 各 种 服务 器 和 计算 设备 对 数据 进 

行 分 析 和 应 用 ， 并 且 这 些 基 础 设施 具有 虚拟 化 的 分 布 式 性 质 等 特点 。 这 些 基础 设施 为 用 
户 带 来 各 种 大 数据 新 应 用 的 同时 会 受到 安全 问题 的 困扰 ， 如 非 授权 访问 、 拒 绝 服务 攻击 、 
网 络 病毒 传播 等 。 

2. 大 数据 存储 安全 问题 


大 数据 的 规模 通常 可 达到 PB 级 ， 结 构 化 数据 和 非 结 构 化 数据 混杂 其 中 ,数据 的 来 源 
多 种 多 样 ， 传 统 的 结构 化 存储 系统 已 经 无 法 满足 大 数据 应 用 的 需要 ， 因 此 需要 采用 面向 
大 数据 处 理 的 存储 系统 结构 。 大 数据 存储 系统 要 有 强大 的 扩展 能 力 ， 可 以 通过 增加 磁盘 
存储 来 增 大 容量 ,所 以 大 数据 存储 系统 的 扩展 要 操作 简便 快速 ,甚至 不 需要 停机 。 在 传 
统 的 数据 安全 中 ,数据 存储 是 非法 入 侵 的 最 后 环节 ,目前 已 形成 完善 的 安全 防护 体系 
大 数据 对 存储 的 需求 主要 体现 在 海量 数据 处 理 、 大 规模 集群 管理 、 低 延迟 读 写 速度 和 较 


























低 的 建设 及 运营 成 本 方面 。 在 数据 应 用 的 和 4 
因此 也 成 为 保障 数据 安全 的 一 个 关键 环节 。 


3. 针对 大 数据 的 高 级 持续 性 攻击 


美国 国家 标准 与 技术 研究 院 给 出 了 高 级 持续 性 攻击 的 详细 定义 :“ 精 通 复杂 技术 的 攻 
击 者 利用 多 种 攻击 向 量 ( 如 网 络 、 物 理 和 欺诈 )， 借助 丰富 资源 创建 机 会 ， 实 现 自己 的 目 
的 ”这 些 目的 通常 包括 对 目标 企业 的 信息 技术 架构 进行 自 改 而 盗 取 数据 (如 将 数据 从 内 
网 输送 到 外 网 ) ， 执 行 或 组 织 一 项 任务 、 程 序 ， 又 或 者 嵌入 对 方 架构 中 伺机 偷 取 数据 。 
APT 的 威胁 主要 包括 以 下 三 方面 。 





命 周 期 中 ， 数 据 停留 在 此 阶段 的 时 间 最 长 ， 
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(1) 长 时 间 重 复 这 种 操作 。 

(2) 适 应 防御 者 以 产生 抵抗 能 力 。 

(3) 维 持 在 所 需 的 互动 水 平 以 执行 偷 取信 息 的 操作 。 

简 而 言 之 ，APT 就 是 长 时 间 窃 取 数 据 。 作 为 一 种 有 组 织 的 攻击 方式 ，APT 
在 流程 上 与 普通 攻击 行为 并 无 明显 区 别 , 但 在 具体 又 上 表现 出 攻击 行为 特征 难以 


提取 、 单 点 隐藏 能力 强 、 供 给 渠道 多 样 化 和 供给 持续 时 轨 长 的 特点 ,使 APT 具备 更 强 的 
破坏 性 。 


4. 网 络 安全 问题 RS 


网 络 面临 的 安全 风险 可 分 为 和 深度 风险 。 广 度 风险 是 指 安全 问题 随 网 络 
节点 数量 的 增加 旦 指数 上 升 ;| 深 是 指 传统 攻击 在 且 手段 越发 多 样 ， 高 级 
OCT 

与 潜伏 时 间 、 更 明确 和 特定 的 攻 


化 和 自动 化 的 特点 ， 0 更 
击 目标 。 


有 
mo 防护 方面 并 不 完善 。 一 方面 ,大 数据 时 
代 的 信息 爆炸 ， 来 自 网 络 的 非法 入 侵 次 数 急剧 增加 ， 网 络 防御 形势 十 分 严峻 ， 另 一 
方面 ， 由 于 攻击 技术 不 断 成 熟 ， 网 络 攻击 手段 越 来 越 难 以 辨识 ， 给 现 有 的 数据 防护 机 制 
带 来 了 巨大 的 压力 。 因 此 ， 在 大 型 网 络 的 网 络 安全 层面 ， 除 了 访问 控制 、 人 侵 检测 、 身 
份 识别 等 基础 防御 手段 ， 还 需要 管理 人 员 能 够 及 时 感知 网 络 中 的 议程 时 间 ， 从 成 千 上 万 
的 安全 时 间 和 日 志 中 找到 最 有 价值 、 最 需要 处 理 和 解决 的 安全 问题 ， 从 而 保障 网 络 的 安 
全 状态 。 
5. 其 他 安全 问题 


除了 在 基础 设施 、 存 储 、 网 络 、APT 等 方面 面临 安全 问题 外 ， 大 数据 隐私 与 安全 问 
题 还 包括 网 络 化 社会 的 易 攻 击 风险 、 大 数据 滥用 风险 和 大 数据 误 用 风险 。 

(1) 网 络 化 社会 的 易 攻击 风险 。 以 论坛 、 博 客 、 微 博 、 微 信 为 代表 的 新 媒体 形式 促 
成 了 网 络 化 社会 的 形成 .网 络 化 社会 中 的 大 数据 蕴含 着 人 与 人 之 间 的 关系 ,可 使 黑客 
攻击 一 次 就 能 获得 更 多 数据 ， 无形 中 降低 了 黑客 的 进攻 成 本 、 增 加 了 攻击 收益 。 近 年 
来 在 互联 网 上 发 生 用 户 账号 的 信息 失窃 等 连锁 反应 可 以 看 出 ， 大 数据 更 容易 吸引 黑客 ， 
而 且 一 旦 遭受 攻击 ,造成 的 损失 巨大 。 
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(2) 大 数据 滥用 风险 。 一 方面 ， 大 数据 本 身 的 安全 防护 存在 漏洞 ， 对 大 数据 的 安全 控 
制 力度 仍然 不 够 ,访问 权限 控制 及 密 钥 生成 、 存 储 和 管理 方面 的 不 足 都 可 能 造成 数据 汇 
露 ; 另 一 方面 ,攻击 者 也 在 利用 大 数据 技术 进行 攻击 。 

(3) 大 数据 误 用 风险 。 大 数据 的 准确 性 和 数据 质量 会 影响 使 用 大 数据 作出 的 决定 。 例 
如 ， 从 社交 媒体 获取 个 人 信息 的 准确 性 、 个 人 的 基本 资料 等 通常 都 是 未 经 验证 的 , 分 析 
结果 的 可 信和 度 不 高 。 另 外 是 数据 的 质量 问题 ， 从 公众 渠道 收集 到 的 信息 可 能 与 需求 的 相 
关 度 较 低 。 这 些 数据 的 价值 密度 较 低 ， 对 其 进行 分 析 和 使 用 可 能 产生 无 效 的 结果 ， 从 而 
导致 错误 的 决策 。 


缚 》【 册 读 来 例 8-1] 


























医疗 大 数据 的 “开放 ”与 “隐私 伶 
2015 年 9 月 5 日 国务院 发 布 了 人 和 站 7 和风 ee 强调 
在 医疗 卫生 等 领域 优先 推动 政府 数据 向 社会 开放 ， 社 会 对 医疗 大 
数据 的 需求 正 快速 增长 。 然 而 ， ee A A 此 
问题 不 解决 将 对 民众 医疗 需求 造成 很 大 的 限 
以 “ 云 病理 ”为 例 ， 2 RS 肿瘤 诊断 离 不 开 病理 诊断 ， 数 字 
上 缓解 医生 匮乏 的 现状 。 只 是 ， “云端 ” 和 


mh tb 
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图 8.3 数字 云 病理 平台 的 原理 


1. “ 云 病理 ” 尚 在 起 步 阶 段 

近 10 年 来 ， 我 国 癌症 发 病 率 到 上 升 趋势 ， 在 癌症 的 诊断 中 ， 病 理 扮演 着 “人 金 标准 ” 
的 角色 。 齐 腾 数 字 沉 理 创始 人 叶 志 前 接受 中 国 经 济 导报 记者 采访 时 解释 说 : “在 肿瘤 相关 
疾病 中 ， 临 床 医生 的 后 续 治 疗 要 根据 病理 医生 的 诊断 结果 来 制定 。” 但 是， 一 个 不 容 忽 视 
的 现状 是 ,我国 目 前 病理 医生 缺口 高 达 10 万 名 。 








' 云 病理 ， 相 较 于 传统 病理 ， 使 得 医疗 资源 的 利用 率 提 高 、 使 用 成 本 降低 、 服 务 质 
量 得 到 提升 .” 叶 志 前 如 此 描述 。 据 叶 志 前 介绍 ，“ 云 病理 ”平台 将 光学 显微镜 下 的 病理 
切片 图 像 转 换 成 可 以 传送 的 数字 图 像 ， 后 通过 无 损 压 缩 技术 将 数据 上 传 至 云端 ， 远 端的 
专家 可 在 任何 时 间 利 用 移动 终端 或 工作 站 接 入 “ 云 病理 ”平台 。 此 平台 不 仅 融 入 了 数字 
化 病理 信息 ， 还 通过 与 区 域 医疗 信息 化 系统 的 信息 交换 ， 整 合 了 患者 的 病史 信息 和 医学 
影像 资料 等 ， 为 远程 病理 诊断 、 多 学 科 综 合 判 断 提供 了 便利 而 有 效 的 工具 ， 大 大 提高 了 
工作 效率 和 诊断 的 准确 性 ， 可 以 在 一 定 程度 上 缓解 病理 医生 匿 乏 的 现状 。 
4 云 病 理 ， 在 我 国 还 处 于 起 步 阶段 ， 医 疗 大 数据 隐私 的 保护 是 一 个 不 容 忽视 的 问 

题 ,” 叶 志 前 坦言 ， 首 先 这 些 教 据 的 收集 与 使 用 必须 保证 途径 合法 ， 如 患者 对 隐私 的 泄露 
比较 得 忱 ， 数 据 的 收集 和 使 用 就 会 变 得 国难 。 因 此 , “开放 ”与 “隐私 ”如 何平 衡 是 医疗 
大 数据 面临 的 一 大 难题 。 另 外 ， 叶 志 前 表示 ， 各 个 “ 云 滴 理 ” 平 各 能 否 兼容 对 接 、 如 何 
人 月 上 和， 对 术 的 人 和 并 扩 宣 了 才 二、 

2. 政府 主导 推进 数据 共享 

“ 央 着 智慧 城市 的 发 展 ， 智 慧 医疗 也 不 断 尝试 攻 
信息 化 建设 的 逐渐 加 强 ， 医 疗 大 数据 将 会 越发 有 历 形 坚 趣 医疗 领域 的 “ 云 " 建设 也 将 
到 渐 增多 ， “每 个 病人 都 是 不 同 的 ， 为 了 能 够 作 忠 次 入 义 的 预测 ， 需 拥有 大 量 数据 ， 通 过 


分 析 这 些 数 据 ， 患 者 可 快速 得 到 医生 反馈 ,> 可 对 病人 制定 “私人 订 制 式 ” 治 疗 方 
案 ， 可 以 利用 收集 的 数据 提高 诊断 的 2 入 此 外 ， 可 提高 医院 的 工作 效率 、 辅 助 医生 


临床 诊断 、 监 管 医疗 质量 、 辅 助 利 了 解 ， 医 疗 据 虽 已 发 展 多 年 ， 但 如 今 各 
个 医院 大 量 信息 处 于 “ 疗 大 数据 唱 有 ， 但 “数据 孤岛 ”的 现象 


由。” 叶 志 前 表示 ， 伴 随 医院 








仿 未 得 到 明显 改善 
“我 认为 一 个 重要 sa 了 
病例 、 手 术 成 本 外 大 量 信息 仍 封闭 冻 司 的 计算 机 里 ， 或 是 在 医院 和 医生 


的 医疗 记录 Ne 医疗 大 元 据 的 发 展 人 因为 没有 数据 相当 于 “了 巧 妇 难 为 无 
As 感慨 。 因 此 ， 他 建议 ， 应 由 政府 主导 ， 继 续 推进 和 加 强 医疗 数据 的 


(资料 来 源 : http: Wwww. ceh. com. cn/shpd/2015/09/869541. shtml，2015-09-12. ) 


8.2 大 数据 隐私 与 安全 的 防护 策略 


大 数据 为 数据 安全 的 发 展 提供 了 新 机 遇 ， 为 安全 分 析 提 供 了 新 的 可 
能 性 ， 对 海量 数据 的 分 析 有 助 于 更 好 地 跟踪 网 络 异常 行为 ， 对 实时 安全 
数据 与 应 用 数据 结合 在 一 起 的 数据 进行 预防 性 分 析 ， 可 防止 诈骗 和 黑客 
入 侵 。 网 络 攻击 行为 总 会 留 下 蛛丝马迹 ,这些 痕迹 都 以 数据 的 形式 隐藏 
【大 数据 时 代 在 大 数据 中 ， 从 大 数据 的 存储 、 应 用 和 管理 等 方面 层 层 把 关 ， 可 以 有 针 
隐私 攻防 战 】 对 性 地 应 对 数据 安全 威胁 。 大 数据 隐私 与 安全 的 防护 策略 大 致 分 为 三 
类 ， 如 图 8.4 所 示 。 
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图 8.4 oa 
国 品名 加 
8. 2.1 存储 安全 策略 
i Da 
Re 本 储 数据 资 【大 数据 时 代 安 全 
9 领域 


源 ， 涉 及 数据 传输 、 复 等 问题 。 经 的 不 断 探索 ， 研 。 可 村 的 存储] 
究 人 员 已 经 在 储存 巍 物 领域 取得 了 进步 ， A 

1. 大 数 夕 短 修 系统 的 安全 性 和 

存储 系统 单 已 不 是 外 部 辅助 系统 了 ， 现 在 信息 技术 已 经 进入 了 一 个 大 数据 安全 的 新 
时 代 ， 即 “存储 时 代 ”。 随 着 网 络 环境 日 益 完善 ， 大 数据 存储 必 将 成 为 未 来 的 焦点 范围 
将 覆盖 全 球 。 网 络 存储 完全 有 可 能 成 为 席卷 世界 的 第 三 次 浪潮 ， 成 为 继 计算 机 和 互联 网 
之 后 的 又 一 革命 性 创举 。 

随 着 互联 网 的 无 限制 扩展 数据 信息 呈现 爆炸 式 增长 ， 同 时 用 户 数据 的 安全 性 也 面 
临 巨大 的 挑战 ， 主 要 原因 在 于 网 络 地 理 位 置 的 分 散 性 和 结构 的 可 扩展 性 。 在 面 对 网 络 上 
的 恶意 攻击 时 ， 互 联网 大 数据 存储 系统 需要 满足 以 下 四 个 基本 特征 。 

(1) 保 密 性 。 数据 内 容 都 存在 一 定 的 机 密 性 ， 必 须 保护 其 内 容 不 被 其 他 用 户 轻易 所 
取 ， 所 以 必须 对 数据 进行 加 密 处 理 。 内 容 的 机 密 性 越 高 ， 加 密 形式 就 越 重要 。 但 是 ， 随 
着 存储 设备 和 存储 系统 逐渐 趋 于 网 络 化 ， 加 密 需 要 实现 网 络 共享 。 虽然 网 络 安全 与 密码 
学 领域 已 经 有 不 少 新 的 研究 成 果 ， 但 是 直接 应 用 于 数据 加 密 的 成 果 却 很 少 。 

(2) 完 整 性 。 数 据 内 容 在 加 /解密 之 后 必须 保证 其 表达 信息 准确 无 误 ， 不 能 被 其 他 用 
户 得 改 、 损 坏 、 销 毁 。 目 前 的 主流 方法 是 数字 签名 和 消息 验证 。 

(3) 可 用 性 。 授 权 用 户 必须 可 以 对 数据 信息 随时 访问 、 修 改 和 销毁 ， 绝 不 可 出 现 能 被 


:体系 结构 层面 发 生 了 巨大 的 改变 。 












































任何 人 随意 使 用 和 无 法 访问 自身 数据 的 情况 。 

(4 系统 性 。 既 可 以 高 效 地 存储 和 调用 数据 ， 又 可 以 保障 数据 的 安全 是 大 数据 发 展 一 
直 追 求 的 两 个 目标 ， 但 是 这 两 个 目标 却 存在 一 定 的 互 斥 性 。 安 全 措施 的 运行 肯定 会 占用 
系统 空间 ， 影 响 数据 的 使 用 效率 。 简 单 来 说 ， 系 统 的 整体 设计 工作 就 是 维持 “性 能 ”和 
安全 ”平衡 。 

2. 云 环境 下 的 大 数据 存储 安全 


传统 的 数据 处 理 模式 是 在 本 地 集中 存储 与 运算 大 量 应 用 数据 ， 在 此 模式 下 进行 工作 ， 
要 保证 操作 的 必要 硬件 条 件 ， 在 硬件 条 件 完 备 之 后 还 需要 专业 的 维护 人 员 定 期 对 设备 进 
行 维护 和 检修 。 高 额 的 设备 投入 和 烦琐 的 维护 过 程 必然 会 限制 这 种 模式 的 发 展 ， 所 以 必 
须 开创 一 种 新 的 发 展 模式 以 适应 发 展 的 需要 。 于 是 ， 以 分 布 服务 器 为 基础 的 大 规模 数据 
处 理 模式 应 运 而 生 ， 也 宣告 “ 云 ” 时 代 的 正式 到 来 。 

云 计算 的 理论 研究 领域 日 益 成 为 新 的 科研 焦点 ， "i 应 用 也 越 来 越 受 到 业 





界 的 关注 。 由 于 云 计算 具有 高 效率 、 低 成 本 、 可 调节 、 等 优点 ， 云 模式 提供 的 
服务 已 经 被 越 来 越 多 的 客户 接受 ， 能 够 满足 广大 客 

从 云 计算 的 工作 原理 来 看 ， 云 数据 安全 存 缺陷: 一 是 云 服务 商 对 各 个 云 
端的 各 类 用 户 数据 具有 直接 获取 权 ， 而 且 加 上 还 未 形成 对 云 服务 商 的 管理 机 制 ， 
云 服务 a 云 服务 的 用 户 数据 存储 在 网 络 服务 器 上 ， 







如 果 不 采 取 相应 的 安全 措施 ， 存 储 在 据 无 异 于 “裸奔 ”即使 采取 了 简单 的 安全 
措施 ， 从 理论 上 来 说 ,黑客 只 个 环节 ， 就 数据 或 者 毁坏 整个 数据 链 。 
这 样 数据 存储 传输 将 复制 、 Es 安全 风险 。 随 着 越 来 越 多 的 
人 接受 和 熟知 “ 云 计 算 据 的 安全 问 po ed 
ee hn ”的 防护 等 级 的 
方法 。 


f 
8.2.2 Denn 


随 着 大 数据 应 用 所 需 技术 和 工具 的 快速 发 展 ， 大 数据 应 用 安全 策略 主要 包括 以 下 四 
方面 。 

1, 防止 APT 

借助 大 数据 处 理 技术 ， 针 对 APT 隐藏 能 力 强 、 长 期 潜伏 、 攻 击 路 径 和 渠道 不 确定 等 
特征 ， 设 计 具 备 实 时 检测 能 力 与 事后 回溯 能 力 的 全 流量 审计 方案 ， 提 醒 有 病毒 的 应 用 
程序 。 

2. 用 户 访问 控制 

大 数据 的 跨 平 台 传输 应 用 在 一 定 程 度 上 会 带 来 内 在 风险 ， 可 以 根据 大 数据 的 密集 程 
度 和 用 户 需求 的 不 同 ， 对 大 数据 和 用 户 设 定 不 同 的 权限 ， 并 严格 控制 访问 权限 。 而 且 ， 
通过 单 点 登录 的 统一 身份 认证 与 权限 控制 技术 ， 对 用 户 访问 进行 严格 的 控制 ， 保 证 大 数 
据 应 用 安全 。 























3. 整合 工具 和 流程 


通过 整合 工具 和 流程 ， 确 保 大 数据 应 用 安全 处 于 大 数据 系统 的 顶端 。 在 整合 点 平行 
于 现 有 连接 的 同时 ， 减 少 通过 连接 企业 或 业务 线 的 工具 输出 到 大 数据 安全 仓库 ， 以 防止 
预 处 理 的 数据 暴露 及 加 工 后 的 数据 溢出 。 通 过 设计 标准 化 的 数据 格式 监督 整合 过 程 ， 也 
可 以 改善 分 析 算 法 的 持续 验证 。 


4. 数据 实时 分 析 引 擎 


数据 实时 分 析 引 擎 融合 云 计 算 、 机 器 学 习 、 语 义 分 析 、 统 计 学 等 多 个 领域 ， 从 大 数 
据 中 第 一 时 间 挖 掘 出 黑客 攻击 、 非 法 操作 、 潜 在 威胁 等 各 类 安全 事件 ， 发 出 警告 响应 。 





8.2.3 管理 安全 策略 R 
大 题 。 为 了 方便 数据 的 
分 析 与 处 理 ， 需 集中 存储 海量 数据 ， 安 全 管理 不 当 将 i 据 丢失 和 损坏 ， 进 而 引发 
毁灭 性 的 灾难 。 随 着 网 络 技术 的 不 断 发 展 ， 窃 取 已 经 不 需要 采用 强制 性 或 物理 
手段 了 ,个 人 数据 的 安全 性 所 面临 的 风险 也 远 以 前 。 现 在 我 国 对 大 数据 的 保护 能 
力 非常 有 限 ， 各 类 安全 手段 还 不 完善 ， 的 事件 频繁 出 现 且 短期 内 难以 改善 。 
我 国 对 数据 安全 保护 的 观念 和 意识 有 ,\ 无 论 是 个 人 数据 还 是 商业 数据 ， 都 没有 一 
套 完善 的 安全 保护 理论 体系 。 基 天 网 缘 的 交互 方式 已 经 在 我 国 广泛 普及 ,已 经 在 商务 、 
社交 、 av oe ee 


暴 增 的 重要 原因 。 然 而 数据 be gs 短 板 ， 尤其 是 对 个 人 终端 设 
备 的 防护 不 当 导 致 各 类 随意 暴露 在 网 上 : 


通过 技术 保护 和 < 管理 制度 也 很 关键 。 从 海量 数据 中 提 











取 有 用 信息 ， 生产 效率 ， 就 必 有 科学 的 大 数据 管理 方法 ， 避 免 各 种 安全 隐 
患 。 具 体 来 说 ,N 池 以 从 以 下 五 个 方面 进行 安全 管理 。 

(1) 规 范 大 数据 建设 。 规 范 化 建设 可 以 促进 大 数据 管理 过 程 的 正规 有 序 ， 实 现 各 级 各 
类 信息 系统 的 网 络 互联 、 数 据 集成 、 资 源 共享 ， 在 统一 的 安全 规范 框架 下 运行 。 

(2) 完 善 大 数据 资产 管理 。 大 数据 资产 管理 要 能 够 清楚 地 定义 数据 元 素 , 包括 数据 格 
式 、 别 名 、 统 计 表 及 其 他 特性 标识 符 等 ， 描 述 数 据 元 素 定义 的 信息 来 源 及 其 相关 数据 元 
素 的 信息 ;记录 使 用 信息 ， 包 括 数据 元 素 的 产生 及 修改 信息 、 安 全 及 访问 控制 信息 、 访 
问 历 史记 录 。 

(3) 建 立 以 数据 为 中 心 的 安全 系统 。 为 了 确保 数据 中 心 系统 的 安全 ， 防 护 系统 主要 通 
过 防火 墙 、 入 侵 检 测 系统 、 安 全 审计 、 抵 抗拒 绝 服务 攻击 、 网 络 防 病毒 系统 来 实现 全 面 
的 安全 防护 。 同 时 ,通过 使 用 加 密 、 识 别管 理 并 结合 其 他 主动 安全 管理 技术 ,使 数据 贯 
穿 于 使 用 、 迁 移 、 停 用 的 全 过 程 。 

(4) 做 好 大 数据 安全 风险 评估 。 不 同类 型 的 数据 形式 及 数据 的 不 同 状态 都 有 其 不 同 的 
泄密 风险 层级 。 针 对 大 数据 的 固有 特点 ， 可 以 将 其 分 为 不 同 的 安全 风险 等 级 ， 从 而 加 强 
安全 防范 ， 并 在 实际 生产 中 明确 安全 风险 治理 目标 ,降低 企业 数据 泄露 风险 , 分 析 并 消 
除 信 息 安全 盲点 。 














+ 


(5) 提 高 企业 员工 安全 意识 。 需 要 提升 员工 对 大 数据 安全 威胁 的 识别 能 力 ， 了 解 正在 
使 用 的 数据 的 价值 ， 充 分 认识 到 自己 在 企业 数据 安全 中 的 角色 。 企 业 也 需要 对 员工 进行 
安全 培训 ， 让 员工 对 彼此 在 安全 防护 中 的 职责 有 所 了 解 ， 并 举行 周期 性 的 安全 攻击 演习 
以 检验 培训 的 成 果 。 
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区 块 链 技术 提升 数据 安全 
区 块 链 技术 正在 快速 地 从 实验 阶段 迈 向 企业 应 用 阶段 。 区 块 链 技术 融合 了 分 布 式 架 
构 、P2P 网 络 协议 、 加 密 算法 、 数 据 验 证 、 共 识 算 法 、 身 份 认证 、 智 能 合约 等 技术 ， 利 
用 基于 时 间 顺 序 的 区 块 形成 链 存 储 数据 ; 利用 共识 机 制 实现 各 节点 之 间 数 据 的 一 致 性 ; 
利用 密码 学 体制 保证 数据 的 存储 和 传输 安全 ; 利用 自动 化 的 立 智能 合约 ， 从 而 实 
现 交 易 的 自动 判断 和 处 理 ， 解决 了 中 心 化 模式 存在 的 安 靠 性 差 、 成 本 高 等 问 
题 。 除 了 上 述 优点 外 ， 区 块 链 技术 本 身 还 具有 优越 的 
1, 区 块 链 技术 的 安全 特性 

区 块 链 解决 了 在 不 可 靠 网 络 上 可 靠 地 传 
泄露 和 认证 失败 的 风险 。 


证 和 管理 ， 因 此 避免 了 中 心 节点 被 攻击 

以 区 块 链 技 术 在 普 患 金融 服务 中 钨 做 用 为 例 ， 区 块 链 工 作 原 理 如 图 8. 5 所 示 ， 假 如 需 
要 在 银行 的 核心 系统 中 做 一 笔 支 体 , 则 心 化 的 系统 受理 交易 ， 由 中 心 化 的 系统 进行 
记 账 。 但 是 在 有 多 个 节点 的 区 Ne 这 种 交易 并 不 是 由 一 个 


中 心 系统 来 记 账 ， 而 是 由 多 点 共同 完成 记 账 。 有 多 个 节点 ， 它 会 通过 挖 矿 






特 







题 ， 由 于 不 依赖 于 中 心 节点 的 认 


等 算法 去 分 布地 选择 响 冲 得 营 易 节点 、 哪 些 是 记 账 名 下 ， 而 每 一 笔 交易 都 是 由 所 有 节点 
共同 确认 的 ， 所 以 需 要 部 心 机 构 确认 ， 的 节点 即 可 完成 确认 动作 。 在 区 块 链 
下 每 个 节点 者 存折 "， 每 本 “ 存 荐 光 作 部 会 记录 下 每 一 笔 交易 ， 而 且 同一 笔 交 易 
在 不 同 的 “ 保持 一 致 。 在 交易 发 型 时 ， 每 个 节点 将 通过 通信 手段 保证 数据 一 到 


性 ， 相 当 于 大 家 共同 维护 一 本 超大 “存折 ”。 区 块 链 中 的 每 一 笔 交易 都 会 打上 签名 ， 就 好 
比 存折 中 的 每 一 笔 交 易 一 旦 打印 完成 就 无 法 自 改 ， 是 不 可 更 新 且 公开 透明 的 。 





£ 记 账 请 求 国 





图 8.5 区 块 链 工作 原理 


2. 区 块 链 技术 的 应 用 
区 块 链 技术 凭 借 其 去 中 心 化 结构 而 带 来 的 安全 特性 ， 目 前 已 被 国外 人 金融、 医疗 、 互 
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联网 等 领域 的 各 大 公司 用 来 提升 网 络 安全 。 有 具体 来 看 ， 区 块 链 技术 可 以 在 管理 和 保护 用 
户 认证 数据 、 提 高 网 络 数据 安全 性 、 有 效 阻止 分 布 式 拒绝 服务 (Distributed Denial of 
Service，DDoS) 攻 击 及 增强 物 联网 安全 等 领域 发 挥 作用 。 

(1) 管 理 和 保护 用 户 认 证 数据 。 美 国 麻 省 理工 学 院 推 出 的 虚拟 货币 CertCoin 最 先 采 用 
了 基于 区 块 链 的 公 铀 基础 设施 ， 握 弃 传 统 中 心 认证 方式 ,采用 公共 密 铀 实现 分 布 式 节点 
之 间 的 互相 认证 ， 从 而 防止 网 络 单 点 故障 。 乌 克 兰 Ukroboronprom 公司 与 网 络 安全 公司 
合作 ， 通 过 在 区 块 链 上 管理 用 户 认证 相关 数据 ， 几 乎 完全 避免 了 黑客 使 用 虚假 认证 消息 
获取 用 户 身 份 。 

(2) 提 高 网 络 数据 安全 性 。 全 球 规模 最 大 的 区 块 链 公司 Guardtime 通过 分 布 节点 之 间 协 
商 来 提供 区 块 链 上 数据 的 机 密 性 和 完整 性 ,保证 了 爱沙尼亚 100 万 份 用 户 医疗 数据 的 安全 
性 。 美 国 国防 部 高 级 研究 计划 局 (Defense Advanced Research ProjectyAgency，DARPA) 也 开 
始 采用 该 方式 为 军 方 敏感 性 数据 提供 安全 保护 。 

(3) 有 效 阻 止 DDoS 攻击 。 区 块 链 初创 公司 Nebuils 有 人 
式 互联 网 域名 系统 ， 只 允许 授权 用 户 管理 域 名 ， 其 他 EX)( 
式 Web 技术 ,替代 原 有 第 三 方 管理 Web 服务 器 泛 的 模 

(4) 增 强 物 联 网 安全 。 通 过 智能 合约 模式 。 
设备 节点 对 待 接 入 设备 进行 鉴 权 ; 另 一 方 效 抵挡 物 联网 DDoS 攻击 。 在 2016 年 
爆发 的 Mirai 僵尸 网 络 DDoS 攻击 事 模 的 物 联 网 设备 被 入 侵 ， 致 使 美国 多 半 网 


络 竣 疾 。 在 区 块 链 系 统 中 ， 当 某 入侵 时 ， 其 他 设备 会 检测 到 该 设备 异常 ， 并 且 
将 其 列 为 异常 和 不 信任 节点 ,、 秒 而 稳 此 排除 。 


3， 区 块 链 技 术 的 应 用 风 记 
et 请 训 克 丰 风 几 和 下 让 是 民 本 防 DDoS 攻击 等 安全 






发 基于 区 块 链 的 分 布 
lockstack) 也 开始 使 用 分 布 
式 ， 阻 止 网 络 DDoS 攻击 。 
一 方面 可 以 利用 P2P 网 络 中 的 网 络 











优势 ， 但 现 阶段 E 技 还 不 成 熟 ， 在 守 祭 仍然 存在 诸多 安全 风险 。 
首先 ， 区 岗 就 产 鸣 可 靠 性 会 随时 间 隐 做 > 早期 生成 的 区 块 由 于 当时 使 用 的 算法 过 
时 或 者 密 包 够 ， 此 部 分 交易 历史 前 可 能 会 被 自 改 伪造。 由 于 区 块 链 采 用 关系 


型 的 数据 结构 ,而且 现 有 机 制 还 没有 删除 历史 交易 数据 的 机 制 ， 将 导致 新 产生 的 区 
块 也 不 可 以 被 信任 。 此 外 ， 所 有 交易 记录 不 断 累 加 也 会 造成 节点 超 负荷 ， 增 加 安全 
隐患 。 

其 次 ， 区 块 链 的 配套 软件 可 能 存在 漏洞 和 隐患 。 由 于 区 块 链 系 统 由 代码 维持 ， 攻 击 
者 会 通过 系统 中 存在 的 漏洞 恶意 自 改 或 者 盗 取 数据 。 在 2016 年 的 The Dao 事件 中 ， 由 于 
智能 合约 程序 存在 严重 漏洞 ， 该 合约 筹集 的 公众 款项 不 断 被 一 个 函数 递归 调用 而 转向 它 
的 子 合约 ， 最 终 被 窃取 了 价值 超过 60 万 美元 的 以 太 币 。2017 年 7 月， 黑客 同样 利用 以 太 
坊 智能 合约 漏洞 盗 取 了 超过 3000 万 美元 的 以 太 币 。 

最 后 ， 区 块 链 可 能 会 被 犯罪 分 子 利 用 。 基 于 区 块 链 本 身 的 匿名 和 安全 特性 ， 不 法 分 
子 可 能 会 采用 区 块 链 技术 进行 违法 网 络 交易 ， 如 进行 暗 网 交易 及 进行 洗钱 犯罪 活动 等 。 
目前 ,美国 参议 院 已 经 通过 了 7000 亿美 元 国防 法 案 ， 其 中 就 包含 研究 区 块 链 技术 潜在 的 
安全 风险 及 评估 网 络 罪犯 利用 该 技术 可 能 造成 的 危害 。 

(资料 来 源 : https: //baijia. baidu. com/s? id 一 1587851712536031485&wfr 一 pc，2017-12-26. ) 








8.3 大 数据 隐私 与 安全 的 防护 技术 


数据 的 生命 周期 一 般 可 以 分 成 生成 、 变 换 、 传 输 、 存 储 、 使 用 、 归 档 和 销毁 七 个 阶 
段 。 根 据 大 数据 和 应 用 需求 的 特点 ， 对 上 述 阶 段 进行 合并 与 精简 ， 可 以 将 大 数据 应 用 过 
程 划分 为 采集 、 存 储 、 挖 掘 和 发 布 四 个 环节 。 数 据 采 集 环节 是 指数 据 的 采集 与 汇聚 ， 安 
全 问题 主要 是 数据 汇聚 过 程 中 的 传输 安全 问题 ; 数据 存储 环节 是 指数 据 汇 聚 完毕 后 大 数 
据 的 存储 ， 以 保证 数据 的 机 密 性 和 可 用 性 ， 提 供 隐 私 保护 ; 数据 挖掘 是 指 从 海量 数据 中 
抽取 出 有 用 信息 的 过 程 ， 需 要 认证 挖掘 者 的 身份 ,严格 控制 挖掘 的 操作 权限 ， 防 止 机 密 
信息 的 泄露 ; 数据 发 布 是 指 将 有 用 信息 输出 给 应 用 系统 ， 需 要 进行 安全 审计 ， 并 保证 可 
以 对 可 能 的 机 密 泄露 进行 数据 溯源 。 

8.3.1 数据 采集 与 存储 安全 技术 


海量 数据 的 存储 需求 俊生 了 大 规模 分 布 式 采 集 在 数据 采集 过 程 中 ， 可 
能 存在 数据 损坏 、 数 据 丢失 、 数 据 泄露 、 数 据 窃取 等 ee 大 数据 具有 如 此 高 的 价 
值 ， 大 量 的 黑客 就 会 设法 窃取 平台 中 存储 的 件 取 利益 ， 如 果 数 据 采集 和 存储 的 












安全 性 得 不 到 保证 ， 将 会 极 大 地 限制 大 数据 和 发 展 。 

1. 数据 采集 安全 技术 

数据 采集 过 程 中 多 使 用 身份 据 加 密 、 en 
程 中 的 安全 性 ， 机 分 首先 人 ;采集 过 程 中 的 传 轿 蕊 综 要 求 ， 简 要 介绍 虚拟 专用 网 


点 


(Virtual Private Netwo PN) 技术， 并 重 前 最 常用 的 VPN 技术 一 一 SSL 
VPN 在 大 数据 传输 i 和 

数据 传输 : 求 主要 有 以 下 四 点 说 : 

@ 机 密 性 ! 只 有 预期 的 目的 端 才 能 获得 数据 。 

@ 完整 性 。 信 息 在 传输 过 程 中 免 遭 未 经 授权 的 修改 ， 即 接收 到 的 信息 与 发 送 的 信息 
完全 相同 。 

@ 真实 性 。 数 据 来 源 真实 可 靠 。 

团 防止 重 发 攻击 。 每 个 数据 的 分 组 必须 是 唯一 的 ,保证 攻击 者 捕获 的 数据 分 组 不 能 
重 发 或 者 重用 。 
[ORs 













(2)VPN 技术 。 
VPN 技术 将 隧道 技术 、 协 议 封装 技术 、 密 码 技术 和 配置 管理 技术 结合 
在 一 起 ， 采 用 安全 通道 技术 在 源 端 和 目的 端 建立 安全 的 数据 通道 ， 将 待 伟 
““” 输 的 原始 数据 进行 加 密 和 协议 封装 处 理 后 再 嵌 套 装 入 另 一 种 协议 的 数据 报 
【 么 搭 VPN 文中 ， 像 普通 数据 报 文 一 样 在 网 络 中 进行 传输 。 因 此 ， 采 用 VPN 技术 可 以 
英利 被 判刑 】 活 过 在 数据 节点 及 管理 节点 之 间 布 设 VPN 的 方式 ,满足 安全 传输 的 要 求 。 
SSL VPN 凭借 其 简单 、 灵 活 、 安 全 的 特点 得 到 了 迅速 的 发 展 。 它 采用 标准 的 安全 套 
接 协议 ， 支 持 多 种 加 密 算法 ， 可 以 提供 基于 应 用 层 的 访问 控制 ， 具 有 数据 加 密 、 完 整 性 















检测 和 认证 机 制 ， 而 且 客 户 端 无 须 安装 特定 软件 ， 更 容易 配置 和 管理 ， 从 而 降低 了 总 成 
本 并 提高 了 远程 用 户 的 工作 效率 。SSL VPN 协议 提供 的 安全 连接 具有 三 个 特点 ， 连接 的 
保密 性 、 连 接 的 可 靠 性 和 非 对 称 密码 认证 体制 。 

SSL VPN 系统 的 组 成 按 功能 可 分 为 SSL VPN 服务 器 和 SSL VPN 客户 端 。SSL VPN 
服务 器 是 公共 网 络 访问 私有 局 域 网 的 桥梁 ， 它 保护 了 局 域 网 内 拓扑 结构 信息 ; SSL VPN 
客户 端 是 运行 在 远程 计算 机 上 的 程序 ， 它 为 远程 计算 机 通过 公共 网 络 访问 私有 局 域 网 提 
人 使 得 远程 计算 机 可 以 安全 地 访问 私有 局 域 网 的 资源 。SSL VPN 服务 
器 相当 于 一 个 网 关 ， ee 一 种 IP 地 址 与 特有 局 域 网 在 一 个 网 段 ， 响 应 的 网 
下 省 本 二 帮 册 民风 上 上 ， 一 种 IP 地 址 是 申请 合法 的 互联 网 地 址 ， 响 应 的 网 卡 连 接 到 公共 
网 络 上 。 

在 SSL VPN 客户 端 ， 需 要 针对 其 他 应 用 实现 SSL VPN 客 
在 远程 计算 机 上 安装 和 配置 。SSL VPN 客户 端 程序 相当 于 户 端 ， 当 应 用 程序 
需要 访问 局 域 网 内 的 资源 时 ， 它 就 向 SSL VPN 客户 端 程 请 求 ，SSL VPN 客户 端 
程序 再 与 服务 器 建立 安全 通道 ， Ce 内 进行 通信 。 

大 数据 环境 下 的 数据 应 用 和 挖掘 需要 以 海量 与 汇聚 为 基础 ， 采 用 SSL VPN 
技术 可 以 保证 数据 在 节点 之 间 传 输 的 安全 性 。 医 营 商 的 大 数据 应 用 为 例 ,运营 商 的 
大 数据 平台 一 般 采 用 多 级 架构 ， 处 于 同 OO 
节点 之 间 均 可 部 署 SSL VPN， 保 证 端 的 数据 安全 传输 。 配 置 安全 机 制 意味 着 需要 额 
外 的 开销 。 引 入 传输 保护 机 制 后 安全 性 外 ， 据 传输 效率 的 影响 主要 有 两 
个 方面 : a < 造成 的 影响 ; Whe 
影响 。 


me 


数据 存 2 > 备份 与 恢复 等 ， 如 图 8.6 所 示 。 事 实 
a 个 生命 周期 都 需要 考虑 ee 从 数据 应 用 角度 来 看 ， 隐 私 
pe 的 数据 变形 ， 以 隐藏 其 真实 意义 ， 所 以 将 隐私 保护 技术 放 在 数据 存储 阶 
段 介 绍 比较 合适 。 

(1) 隐 私 保护 。 

隐私 保护 的 目的 主要 包括 保证 数据 应 用 过 程 中 不 泄露 隐私 和 更 好 地 利用 数据 两 个 方 
面 。 当 前 隐私 保护 领域 的 研究 工作 主要 集中 于 如 何 设计 隐私 保护 原则 和 算法 ， 以 更 好 地 
达到 这 两 方面 的 平衡 。 隐 私 保护 技术 可 分 为 以 下 三 类 。 

Q@ 基于 数据 变换 的 隐私 保护 技术 。 所 谓 数据 变换 ， 简 单 来 说 就 是 对 明暗 属性 进行 转 
化 ， 保 持原 始 数据 部 分 为 真 ， 同 时 某 些 数据 或 数据 属性 不 变 的 保护 方法 。 数 据 失 真 技 术 
通过 扰动 原始 数据 来 实现 隐私 保护 ， 它 要 使 扰动 后 的 数据 不 被 攻击 者 发 现 ， 同 时 失真 后 
的 数据 仍然 保持 某 些 性 质 不 变 。 目 前 ,此 类 技术 主要 包括 随机 化 、 数 据 交换 、 添 加 噪 
声 等 。 

@ 基于 数据 加 密 的 隐私 保护 技术 。 采 用 对 称 或 非 对 称 加 密 技 术 在 数据 中 隐藏 敏 感 数 
据 ， 多 用 于 分 布 式 应 用 环境 中 ， 如 分 布 式 数据 挖掘 、 分 布 式 安全 查询 、 几 何 计算 、 科 学 
计算 等 。 分 布 式 应 用 一 般 采 用 两 种 模式 存储 数据 ; 垂直 划分 数据 和 水 平 划分 数据 。 垂 直 




















程序 ， 这 种 程序 需要 













































基于 数据 变换 的 隐私 保护 技术 










立 磁 从 阵列 (Redundant 
让 nt Disks，RAID) 








划分 数据 是 指 分 布 式 环境 中 每 个 站 六 呈 刹 储 部 分 届 性 的 数据 ， 所 有 站 点 存储 的 数据 不 重 
复 ; ST 分 布 式 环境 中 点 ， 所 有 站 点 存储 的 数据 
不 重复 。 * 


基诺 各 化 了 训令 术 ， 虹 名 化 刁 体 情况 有 条 件 地 发 布 数据 ， 如 不 发 
布 数据 的 某 些 域 值 2 数据 本 化 等 。 限 制 发 菏 即 乃 选 择 地 发 布 原始 数据 ,不 发 布 或 者 发 布 


和 以 实现 隐私 保护 [其 所 匿名 化 一 般 采用 两 各 基本 操作 ， 抑制 
泛 化 。 

每 种 隐私 技术 都 存在 优 缺点 ， 基 于 数据 变换 的 技术 效率 较 高 ， 但 存在 一 定 程度 上 的 
信息 丢失 ; 基于 加 密 的 技术 则 刚好 相反 ， 它 能 保证 最 终 数 据 的 准确 性 和 安全 性 ， 但 计算 
开销 较 大 ; 限制 发 布 技术 的 优点 是 能 保证 所 发 布 的 数据 一 定 真 实 , 但 发 布 的 数据 会 有 一 
定 的 信息 丢失 。 在 大 数据 隐私 保护 方面 ， 需 要 根据 具体 的 应 用 场景 和 业务 需求 选择 适当 
的 隐私 保护 技术 。 

(2) 数 据 加 密 。 

大 数据 环境 下 ,数据 可 以 分 为 两 类 : 静态 数据 和 动态 数据 。 静态 数据 是 指 文档 、 报 
表 、 资 料 等 不 参与 计算 的 数据 ; 动态 数据 则 是 需要 检索 或 参与 计算 的 数据 。 对 于 需要 计 
算 的 动态 数据 目前 还 没有 成 熟 的 方案 ， 因 为 动态 数据 需要 在 CPU 和 内 存 中 以 明文 形式 存 
在 ;对 于 静态 数据 来 说 ， 目 前 有 数据 加 密 算法 、 密 钥 管理 方案 及 安全 基础 设计 三 种 数据 
加 密 机 制 。 

名 数据 加 密 算 法 。 数 据 加密 算 法 有 两 类 : 对 称 算 法 和 非 对 称 算法 。 对 称 算法 是 它 本 
身 的 逆反 函数 ， 即 加 密 和 解密 使 用 同一 个 密 钥 ， 解 密 时 使 用 与 加 密 相同 的 算法 即 可 得 到 
明文 ,常见 的 对 称 加 密 算 法 有 DES、AES、IDEA、RC4 和 RC5 等 ; 非 对 称 加 密 算 法 使 











ES 大 数据 用 和 与 安全 


用 两 个 不 同 的 密 钥 : 一 个 公 钥 和 一 个 私 钥 。 在 实际 应 用 中 ,用 户 管理 私 钥 的 安全 ， 而 公 
钥 需 要 发 布 出 去 ， 用 公 钥 加 密 的 信息 才能 解密 ， 反 之 亦 然 。 

实际 工程 中 常 采取 的 解决 方法 是 将 对 称 加 密 算 法 和 非 对 称 加 密 算法 结合 起 来 ， 利 用 
对 称 密 钥 系统 进行 密 钥 分 配 ， 利 用 对 称 密 钥 加 密 算 法 进行 数据 加 密 ， 尤 其 是 在 大 数据 环 
境 下 加 密 大 量 的 数据 时 ， 这 种 结合 尤为 重要 。 

@ 加 密 范 围 。 在 大 数据 存储 系统 中 ,并非 所 有 的 数据 都 是 敏感 的 ， 对 那些 不 敏感 
的 数据 进行 加 密 完全 没有 必要 。 尤 其 是 在 一 些 高 性 能 计算 环境 中 ,敏感 的 关键 数据 主 
要 是 计算 任务 的 配置 文件 和 计算 结果 ， 这 些 数据 相对 来 说 敏感 程度 不 高 ， 但 对 于 数据 
量 庞大 的 计算 源 数据 来 说 ， 敏 感 数据 在 系统 中 的 比例 不 是 很 大 。 因 此 ， 可 以 根据 数据 
敏感 性 对 数据 进行 有 选择 性 的 加 密 ， 仅 对 敏感 数据 进行 按 需 加 密 存储 ， 免 除 对 不 敏感 
orx 

















的 意义 。 
@ 密 钥 管理 方案 。 eh 管理 体系 及 密 钥 分 发 机 
制 。 密 钥 是 数据 加 密 不 可 或 缺 的 部 分 ， 密 钥 数 量 与 密 直接 相关 。 密 钥 粒 度 大 时 ， 
方便 用 户 管 理 ， 但 不 适合 细 粒 度 的 访问 控制 密 \ 时 ， 可 以 实现 细 粒 度 的 访问 控 
制 ， 安 全 性 更 高 ， 但 产生 的 密 钥 数量 太 多 ， 难 忆 

适合 大 数据 存储 的 密 钥 管理 办 法 主要 
体系 。 这 种 密 钥 管理 体系 就 是 将 密 







密 钥 管理 ， 即 “人 金字塔 ” 式 密 钥 管理 
诸 的 方式 存放 ， 上 层 密 钥 用 来 加 密 和 解密 











下 层 密 钥 ， 只 需 将 顶层 密 铀 分 发 i， 其 他 层 密 钢 均 可 直接 存放 于 系统 中 。 考 
虑 到 安全 性 ， 大 数据 存储 系统 和 tr 
采用 分 层 密 钥 管理 时 ， ied) 大 量 密 钥 加 以 管理 ， 效 率 
更 高 。 

(3) 备 份 与 恢 要 

数据 存储 系统 应 隐 完 和 的 数据 备 训 次 人 机 全 来 保障 数据 的 可 用 性 和 完 于 性。 _- 
旦 数据 丢失 或 泛 环 》 可 以 利用 备份 来 恢复 数据 ， 从 而 保证 在 故障 发 生 后 数据 不 丢失 。 党 


见 的 备份 与 恢复 机 制 有 异地 备份 、RAID、 数 据 镜 像 和 快照 四 种 。 

加 异地 备份 。 是 保护 数据 最 安全 的 方式 ， 在 发 生火 灾 、 地 震 等 重大 灾难 的 情况 下 ， 
当 其 他 保护 数据 的 手段 都 不 起 作用 时 ,异地 备份 的 优势 就 体现 出 来 了 。 异 地 备份 有 三 种 
方式 ， 即 基于 磁盘 阵列 、 基 于 主机 方式 和 基于 存储 管理 平台 。 

@ RAID。 系 统 使 用 许多 小 容量 的 磁盘 驱动 器 来 存储 大 量 数据 ， 使 可 靠 性 和 宛 余 度 得 
到 提高 。 所 有 RAID 系统 的 共同 特点 是 具备 “ 热 交换 ”能 力 ， 即 用 户 可 以 去 除 一 个 存在 
缺陷 的 驱动 器 ， 并 更 换 一 个 新 的 驱动 器 。 对 大 多 数 RAID 来 说 ,不 必 使 用 终端 服务 器 就 
可 以 自动 重建 某 个 故障 磁盘 上 的 数据 。 

@ 数据 镜像 。 就 是 保留 两 个 或 两 个 以 上 在 线 数据 的 副本 。 以 两 个 镜像 为 例 ， 所 有 写 
操作 在 两 个 独立 的 磁盘 上 同时 进行 ， 当 两 个 磁盘 都 正常 工作 时 ， 数 据 可 以 从 任意 磁盘 读 
取 。 如 果 一 个 磁盘 读 取 失 效 ， 则 数据 还 可 以 从 另 一 个 正常 工作 的 磁盘 读 取 。 远 程 镜 像 根 
据 协 议 方式 的 不 同 可 划分 为 同步 镜像 和 异步 镜像 。 

钱 快照 。 是 数据 的 一 个 副本 ， 可 以 迅速 恢复 遭 到 破坏 的 数据 ,减少 宕 机 损失 。 人 快照 
的 作用 主要 是 进行 在 线 数据 备份 与 恢复 ， 当 存储 设备 发 生 应 用 故障 或 者 文件 损坏 时 可 以 



































快速 恢复 数据 ， 将 数据 恢复 为 某 个 可 用 时 间 点 的 状态 。 快 照 可 以 实现 备份 ， 在 不 产生 备 
份 窗口 的 情况 下 ， 也 可 以 帮助 用 户 创建 一 致 性 的 磁盘 快照 ， 每 个 磁盘 快照 都 可 以 被 认为 
是 一 次 对 数据 的 完全 备份 。 快 照 还 具有 快速 恢复 的 功能 ， 用 户 可 以 根据 存储 管理 员 的 设 
置 ， 定 时 自动 创建 快照 ， 通 过 磁盘 回 退 ,快速 回 滚 到 指定 的 时 间 点 上 。 


8.3.2 数据 挖掘 安全 技术 


数据 挖掘 是 大 数据 应 用 的 核心 部 分 ， 是 挖掘 大 数据 价值 的 过 程 ， 即 从 海量 的 数据 中 
自动 抽取 隐藏 在 数据 中 的 有 用 信息 的 过 程 ， 有 用 信息 包括 规则 、 概 念 、 规 律 和 模式 等 。 
数据 挖掘 融合 了 数据 库 、 人 工 智能 、 机 器 学 习 、 统 计 学 、 模 式 识别 、 神 经 网 络 等 多 个 领 
域 的 理论 和 技术 ,数据 挖掘 的 专业 性 决定 了 拥有 大 数据 的 机 构 往 往 不 是 专业 的 数据 挖掘 
者 ， 因 此 经 i 





控制 问题 。 
1. 身份 认证 


身份 认证 是 指 计算 机 及 网 络 系统 确认 操作 者 
成 的 身份 是 否 符合 的 过 程 。 根 据 被 认证 方 能 够 i 
分 为 以 下 三 种 。 


(1) 基 于 秘密 信息 的 身份 认证 技 es 如 用 


户 ID、 口令 、 密 钥 等 。 该 技术 包 号 和 口令 的 身份 认证 、 基 于 对 称 密 钥 的 身 
份 认 证 、 基 于 密 钥 分 配 中 心 的 身 和 基于 公 钥 的 认证 等 


en hahaa 要 有 基于 信用 a 智 
一 种 ， 其 名 括 微 处 理 器 、 存 储 器 、 输 入 / 输 
Pa. 的 加 密 处 理 器 。 


能 卡 也 称 令 牌 卡 ， ee 
生理 特征 (如 指纹 、 声 音 、 虹 膜 ) 的 身份 


， 即 用 户 的 真实 身份 与 其 生 
的 认证 信息 ， 身 份 认证 技术 可 以 













出 部 分 和 软件 资源 
(3) 基 于 生物 扩 
认证 和 基于 筷 汶 娃 细 (如 步 态 、 答 名) 的 身 傅 久 证 等 ， 
2. 访问 控 抽 


访问 控制 是 指 主体 依据 某 些 控制 策略 或 权限 对 客体 或 资源 进行 的 不 同 授权 访问 ， 
限制 对 关键 资源 的 访问 ， 防 止 非法 用 户 进入 系统 和 非法 用 户 对 资源 的 非法 使 用 。 访 问 
控制 是 进行 数据 安全 保护 的 核心 策略 ， 为 有 效 控制 用 户 访问 数据 存储 系统 ， 保 证 数据 
资源 的 安全 ， 可 授予 每 个 系统 访问 者 不 同 的 访问 级 别 ， 并 设置 响应 策略 以 保证 合法 用 
户 获 得 数据 的 访问 权 。 访 问 控制 可 以 是 自主 的 或 非 自主 的 ， 常 见 的 访问 控制 模式 有 以 
下 三 种 。 

51) 自 主 访问 控制 。 自 主 访问 控制 是 指 对 某 个 客体 具有 拥有 权 ( 或 控制 权 ) 的 主体 能 
够 将 对 该 客体 的 一 种 访问 权 或 多 种 访问 权 自 主 地 授予 其 他 主体 ， 并 在 随后 的 任何 时 刻 
将 这 些 权限 收回 。 这 种 控制 是 自助 的 ， 即 具有 授予 某 种 访问 权利 的 主体 能 够 自己 决定 
是 否 将 访问 控制 权限 的 某 个 子 集 授予 其 他 主体 ， 或 从 其 他 主体 那里 收回 它 所 授予 的 访 
问 权限 。 自 主 访问 控制 中 ， 用 户 可 以 针对 被 保护 对 象 制定 自己 的 保护 策略 。 这 种 机 制 
的 优点 是 具有 灵活 性 、 易 用 性 和 可 拓展 性 ; 缺点 是 控制 需要 自主 完成 ， 带 来 了 严重 的 
安全 问题 。 




































































(2) 强 制 访问 控制 。 强 制 访问 控制 是 计算 机 系统 根据 使 用 系统 的 机 构 实 现 既定 的 安全 
策略 ,对 用 户 的 访问 权限 进行 强制 性 的 控制 。 也 就 是 说 ,系统 独立 于 用 户 行为 ， 从 而 强 
制 执行 访问 控制 ， 用 户 不 能 改变 它们 的 安全 级 别 或 对 象 的 安全 属性 。 强 制 访问 控制 具有 
很 强 的 等 级 划分 ， 所 以 经 常用 于 军事 领域 。 强 制 访问 控制 在 自主 访问 控制 的 基础 上 ， 增 
加 了 对 网 络 资源 的 属性 划分 ， 规 定 了 不 同属 性 下 的 访问 权限 。 这 种 机 制 的 优点 是 安全 性 
比 自主 访问 控制 的 安全 性 高 ， 缺 点 是 灵活 性 差 。 

(3) 基 于 角色 的 访问 控制 。 数 据 库 系统 可 以 采用 基于 角色 的 访问 控制 策略 ,建立 角 
色 、 权 限 与 账号 管理 机 制 。 基 于 角色 的 访问 控制 的 基本 思想 是 在 用 户 和 访问 权限 之 间 引 
入 角色 的 概念 ， 将 用 户 和 角色 联系 起 来 ， 通 过 对 角色 的 授权 来 控制 用 户 对 系统 资源 的 访 
间 。 这 种 方法 可 以 根据 用 户 的 工作 职责 设置 若干 角色 ,不 同 的 用 户 可 以 具有 相同 的 角色 ， 
在 系统 中 享有 相同 的 权利 ; 同一 0 




















角色 的 权利 。 
OV 


其 安全 性 尤为 重要 。 数 据 发 布 前 必须 出 的 数据 进行 全 面 的 审查 ,确保 输出 的 数 


据 符 合 “ 不 隐秘 、 不 隐私 TS 等 要 求 。 输出 环节 的 安全 审计 技术 和 
wont 


1. 安全 审计 
安全 审计 是 指 系统 安全 有 


美 pa 对 系统 进行 分 析 处 理 、 评 佑 
审查 ， oC Te 查 和 计算 ， 追查 造成 事故 的 原因 ， 并 作 
出 进一步 的 前 常用 的 审计 技术 有 从 

(1) 基 于 日 志 的 审计 技术 。 通 常 SQL 数据 库 和 NoSQL 数据 库 都 具有 日 志 审 计 功能 ， 
通过 配置 数据 库 即 可 实现 对 大 数据 的 审计 。 日 志 审 计 能 够 对 网 络 操作 及 本 地 操作 数据 的 
行为 进行 审计 ， 由 于 依托 现 有 的 数据 存储 系统 ， 因 此 兼容 性 较 好 。 但 这 种 审计 技术 的 缺 
点 也 比较 明显 ， 首 先 在 数据 存储 系统 上 ， 开启 自身 日 志 审 计 对 数据 存储 系统 的 性 能 有 影 
响 ， 特 别 是 在 大 流量 情况 下 损耗 较 大 ; 其 次 ,日 志 审 计 的 记录 细 粒 度 较 差 . 缺少 一 些 关 
键 信息 ; 最 后 ,日 志 审 计 需 要 到 每 一 台 被 审计 的 主机 上 进行 配置 和 查看 ， 较 难 进行 统一 
的 审计 策略 配置 和 日 志 分 析 。 

(2) 基 于 网 络 监听 的 审计 技术 。 基 于 网 络 监听 的 审计 技术 是 通过 将 数据 存储 系统 的 访 
问 镜像 到 交换 机 的 某 一 个 端口 ， 然 后 通过 专用 硬件 设备 对 该 端口 流量 进行 分 析 和 还 原 ， 
从 而 实现 对 数据 访问 的 审计 。 基 于 网 络 监听 的 审计 技术 的 最 大 优点 就 是 与 现 有 数据 存储 
系统 无 关 ， 部 署 过 程 不 会 给 数据 库 系统 带 来 性 能 上 的 负担 ， 即 使 出 现 故 障 也 不 会 影响 数 
据 库 系统 的 正常 运行 ， 具 备 易 部 署 、 无 风险 的 特点 。 但 是 ， 其 部 署 的 实现 原理 决定 了 网 
络 监听 技术 在 针对 加 密 协 议 时 ， 可 以 审计 到 时 间 、 源 IP、 源 端口 、 目 的 IP、 目 的 端口 等 
信息 ,但 无 法 对 内 容 进行 审计 。 


使 用 不 
8.3.3 数据 发 布 安全 技术 Ng 
orate 应 用 实体 输出 挖掘 结果 数据 的 环节 ， 














(3) 基 于 网 关 的 审计 技术 。 基 于 网 关 的 审计 技术 通过 在 数据 存储 系统 前 部 署 网 关 设 
备 ， 在 线 截取 并 转发 到 数据 存储 系统 实现 审计 。 该 技术 起 源 于 安全 审计 在 互联 网 审计 中 
的 应 用 ， 在 互联 网 环境 下 ， 审 计 过 程 除了 记录 外 还 需要 关注 控制 ， 而 网 络 监听 方式 无 法 
实现 很 好 的 控制 效果 ， 因 此 多 数 互 联网 厂商 选择 通过 串 行 方式 来 实现 控制 。 

(4) 基 于 代理 的 审计 技术 。 基 于 代理 的 审计 技术 是 通过 在 数据 存储 系统 中 安装 审计 程 
序 实 现 审计 策略 的 配置 和 日 志 的 采集 ， 该 技术 与 日 志 审计 技术 比较 类 似 ， 最 大 的 不 同 是 
需要 在 被 审计 主机 上 安装 代理 程序 。 基 于 代理 的 审计 技术 的 审计 粒度 优 于 基于 日 志 的 审 
计 技术 。 但 是 ， 因 为 代理 审计 不 是 基于 数据 存储 系统 本 身 的 ， 所 以 其 性 能 损耗 大 于 基于 
日 志 的 审计 技术 。 在 大 数据 环境 下 ， 数 据 存储 于 多 种 数据 库 系统 中 ， 需 要 同时 审计 多 种 
存储 架构 的 数据 。 基 于 代理 的 审计 技术 存在 一 定 的 兼容 风险 ， 且 在 引入 代理 审计 后 ， 原 
数据 存储 系统 的 稳定 性 和 可 靠 性 会 受到 影响 。 




















2. 数据 溯源 «KR 

em wien mt ten 和 定位 ， 在 发 生 数 据 安全 
问题 时 ， 可 以 及 时 准确 地 定位 到 出 现 问题 的 环节 利 表 ， 以 便 解决 数据 安全 问题 。 目 
前 对 数据 沛 源 的 理论 研究 主要 基于 数据 集 溯源 全 方法 ， 主 要 方法 有 标注 法 和 反 向 
查询 法 。 这 两 种 方法 是 基于 数据 操作 记录 殉 < yj 计 恶 意 窃取 、 非 法 访问 者 来 说 ， 很 容易 
破坏 数据 溯源 信息 。 CR 应 用 、 工 作 流 应 用 和 其 他 方面 的 应 用 。 随 


着 大 数据 和 云 计算 的 不 断 发 展 ， i ”六 - 


8.3.4 防范 APT 技术 这 人 el 


大 数据 应 用 环境 不 i En a 首先 ， 应 用 大 数据 技术 对 数据 进行 
了 逻辑 或 物理 上 的 ， 相 对 于 在 分 统 包 搜集 有 用 的 信息 ,集中 的 数据 系统 为 
APT 搜集 信息 便利 ; 其 次 , 数据 寸 程 中 可 能 会 有 多 方 合 作 的 业务 模式 ， 外 部 
系统 对 数据 的 访问 增加 了 泄露 机 密 和 隐私 的 途径 。 


1. APT 的 特征 


与 其 他 攻击 形式 相 比 ，ATP 功 击 的 原理 更 高 级 和 先进 ， 具 体 特 征 如 下 。 

(1) 极 强 的 隐蔽 性 。APT 与 被 攻击 对 象 的 可 信 程 序 漏洞 和 业务 系统 漏洞 进行 了 融合 ， 
这 种 融合 在 组 织 内 部 很 难 被 发 现 。 

(2) 潜 伏 期 长 ， 持 续 性 强 。APT 是 一 种 很 有 耐心 的 攻击 方式 ， 攻 击 和 威胁 可 能 在 用 户 
环境 中 存在 一 年 以 上 ， 通 过 不 断 收集 用 户 信息 来 收集 重要 情报 。 这 种 攻击 模式 本 质 上 是 
一 种 “恶意 商业 间谍 威胁 ”， 具 有 很 长 的 潜伏 期 和 一 定 的 持续 性 。 

(3) 目标 性 强 。 不 同 于 以 往 的 常规 病毒 ，APT 的 制作 者 掌握 高 级 漏洞 挖掘 和 超 强 的 网 
络 攻击 技术 ， 发 起 APT 所 需 的 技术 壁垒 和 资源 壁垒 要 远 高 于 普通 攻击 行为 。 

(4) 技 术 高 级 。 攻 击 者 掌握 先进 的 攻击 技术 , 使 用 多 种 攻击 途径 ,而 且 攻 击 过 程 复 
杂 ， 持 续 攻击 过 程 中 攻击 者 可 以 动态 调整 攻击 方式 .从 整体 上 掌控 攻击 过 程 。APT 的 一 
般 过 程 如 图 8.7 所 示 。 
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图 8.7 APT 的 一 般 过 程 


2. APT 的 防范 策略 

目前 的 防御 技术 、 防 御 体系 很 难 有 效应 对 APT， 导 致 被 攻击 很 长 时 间 后 才 会 发 现 ， 
甚至 可 能 有 许多 APT 未 被 发 现 。 新 的 安全 防御 体系 需要 新 的 安全 思维 ， 即 放弃 保护 所 有 
数据 的 观念 ， 转 而 重点 保护 关键 数据 ， 在 传统 的 纵深 防御 的 网 络 安全 防护 基础 上 ， 在 各 
个 可 能 的 环节 上 部 署 检 测 和 防护 手段 。 

(1) 防 范 社会 工程 。 

防范 社会 工程 需要 一 套 综合 性 措施 ， 既 要 根据 实际 情况 完善 信息 安全 管理 策略 ， 如 
禁止 员工 在 个 人 微 博 上 发 布 与 工作 相关 的 信息 、 禁 止 在 社交 网 站 上 公布 私人 身份 和 联络 
信息 等 ， 又 要 采用 新 型 的 检测 技术 ,提高 识别 恶意 程序 的 准确 性 。 社 会 工程 是 利用 人 人 性 








的 弱点 针对 个 人 进行 的 渗透 过 程 。 因 此 ， 提 高 个 人 的 信息 安全 意识 是 防止 社会 工程 攻击 
的 基本 方法 。 

绝 大 部 分 社会 工程 攻击 是 通过 电子 邮件 或 即时 信息 进行 的 。 管 理 设备 应 该 做 到 阻止 
内 部 主机 对 恶意 URL 的 访问 。 有 些 邮件 表面 上 看 是 一 个 普通 的 数据 文件 ， 比 较 有 效 的 方 
法 是 用 沙 箱 模拟 真实 环境 访问 邮件 中 的 URL 或 打开 附件 ， 观 察 沙 箱 主机 的 行为 变化 ， 以 
有 效 检测 出 恶意 程序 。 

(2) 全 面 采集 行为 记录 ， 避 免 内 部 监控 盲点 。 

收集 IT 系统 行为 记录 是 异常 行为 检测 的 基础 和 前 提 。 大 部 分 IT 系统 行为 可 以 分 为 
主机 行为 和 网 络 行为 两 个 方面 ， 更 全 面 的 行为 采集 还 包括 物理 访问 行为 记录 采集 。 

名 主机 行为 采集 。 一 般 是 指 完成 主机 上 的 行为 监控 程序 ， 有 些 行为 记录 可 以 通过 操 
作 系统 自 带 的 日 志 功 能 实现 自动 输出 。 为 了 实现 对 进程 行为 的 监控 ,行为 监控 程序 通 党 
在 操作 系统 的 驱动 层 工作 ， 如 果实 现 上 有 错误 ,很 容易 引 崩溃 。 为 了 避免 被 亚 
意 程序 探测 到 监控 程序 的 存在 ， 行 为 监控 程序 应 当 尽量 芭 纵 稚 冻 动 层 的 底部 ， 但 越 靠近 
We 
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四 网 络 行为 采集 。 一 般 是 通过 镜像 网 络 流 数据 转换 成 流量 日 志 。 以 


NetFlow 为 代表 的 早期 流量 日 志 只 包含 网 络 层 储 咏 | 二 近年 来 的 异常 行为 大 多 集中 在 应 
用 层 ， 仅 赁 网 络 层 的 信息 难以 分 析出 有 CT 
应 用 的 分 类 和 建 模 。 
(3)IT 系统 异常 行为 检测 。 


异常 行为 检测 的 核心 思想 a 
目标 主机 、 目 标 主机 与 外 网 前 颈 务 器 进行 联络 和 服务 器 传送 数据 。 而 异常 行 
区 基于 连 恶意 代码 检测 规则 以 及 行为 模式 
的 异常 检测 算法 CS 


D> mad a 将 


美国 大 选 背后 的 个 人 隐私 与 大 数据 

美国 总 统 竞选 从 来 都 是 一 项 注重 公众 参与 的 活动 ， 了 解 公众 的 需求 、 获 得 公众 的 
喜好 并 加 以 满足 是 入 主 和 白宫 的 根本 。 现 在 的 候选 人 早已 意识 到 ,数据 技术 是 必要 的 途 
径 。 当 总 统 竟 选 在 社交 网 络 上 全 方位 展开 时 ， 其 实 是 在 诱导 选民 社交 图 的 社会 认同 ; 
曾经 以 “为 民众 赋予 权力 ”为 基础 的 民主 制度 ， 在 对 个 人 隐私 的 窥探 下 ， 可 能 变 成 针 
对 个 人 的 行为 操纵 。 人 们 以 为 是 自己 作出 了 选择 ， 但 其 实 只 是 险 入 了 精心 设计 好 的 
“罗网 ”。 这 与 商业 巨头 对 消费 者 所 做 的 事情 很 像 ， 即 让 潜在 消费 者 心满意足 地 掏 出 钱 
包 和 投 出 选票 

1. 对 个 人 隐私 的 窥探 

当今 世界 最 不 缺 的 就 是 人 们 留 下 的 数据 痕迹 : 每 一 次 注册 /登录 、 每 一 次 网 络 搜索 、 
Oe ns se ai 
个 人 的 个 性 化 决策 。 这 些 决策 不 仅 用 在 商业 活动 、 娱 乐 和 营销 中 ， 类 全: 二 大 生生 不 和 
外 。2016 年 的 美国 总 统 大 选 被 德国 《 商 报 )》 称 为 “第 一 次 数字 化 竞选 ee 
























治 活动 中 频繁 出 现 了 许多 名 词 : 大 数据 、 社 交 网 络 、 软 件 机 器 人 人、 黑客 甚 至 维基 解密 。 
两 党 候选 人 都 拥有 庞大 的 技术 班底 ， 将 大 量 资金 花费 在 获取 和 使 用 投票 者 的 信息 上 ， 并 
且 借助 社交 网 络 的 力量 ， 将 自己 获胜 的 希望 最 大 化 。 

如 今 的 候选 人 已 经 意识 到 ， 以 互联 网 为 基础 的 信息 技术 可 以 在 政治 角逐 中 起 到 巨大 
的 作用 。 人 们 将 自己 的 信息 放 到 网 上 ， 让 各 种 网 站 记录 自己 的 个 人 和 财产 信息 ， 在 社交 
网 络 上 公开 发 表 观 点 。 这 些 公开 的 信息 可 以 用 来 描绘 特定 用 户 的 面貌 准确 程度 远 远 超 
过 人 口 普查 的 结果 。 在 这 些 数据 中 ， 草 藏 着 商业 和 政治 的 新 机 会 一 虽然 并 非 清 晰 可 见 ， 
但 的 确 是 一 座 金 矿 。 这 与 传统 的 美国 总 统 大 选 很 不 一 样 。2008 年 奥巴马 获 选 的 重要 原因 
之 一 是 其 借助 了 互联 网 的 优势 。 在 他 竞选 成 功 后 ， 《纽约 时 报 》 的 一 篇 文章 写 道 : “如 果 
没有 互联 网 ， 奥 巴 马 就 不 可 能 是 总 统 。” 奥 巴 马 和 选民 们 在 社交 网 站 上 的 互动 ， 帮 助 他 获 
TT 间作 


在 竞选 连任 时 ,“ 对 当初 帮 他 入 主 白 宫 的 69456897 名 美国 人 了 如 指 掌 。” 所 以 在 
2016 年 的 美国 总 统 大 选中 ， 两 党 对 数据 收集 、 分 析 ee 
是 难以 理解 的 举措 了 。 

2. 数据 的 力量 Sy 

在 进入 21 世纪 之 前 ,美国 总 统 竞选 多 年 的 方式 ; 电视 广告 、 电 子 邮 
件 、 上 门 拜访 、 社 区 活动 和 巡回 演讲 。 国 总 统 大 选中 ,候选 人 开始 用 互联 
网 来 募集 竞选 资金 和 动员 志愿 者 ; 20 刚 发 展 起 来 的 数据 挖掘 技术 就 成 了 竞选 的 


rn Te 对 性 的 信息 和 传播 渠道 ; 在 
2016 年 的 大 选中 ， 新 技术 被 ea 。 


与 大 多 数 政治 分 析 家 不 人 自己 的 政治 经 验 来 预测 结果 。 
A 因为 用 算法 机 佑 准确 预测 了 2008 年 和 2012 年 的 总 


统 大 选 和 各 州 投票 而 放声 大 噪 ， 以 至 选 活动 之 后 ， 报纸 杂 志 都 会 说 : “内 
'” 但 其 实 内 特 沃 认为 什么 并 不 重要 ， 重 要 的 是 他 的 预测 





特 。， 希 尔 沃 预测 了 
模型 如 何 认 光 。 人 网 站 上 ， 他 发 表 了 候选 人 的 当选 概率 并 实时 更 新 ， 每 次 发 生 公众 
事件 或 者 有 了 新 的 民意 调查 结果 ， 这 些 概率 就 会 变化 。 这 些 概 率 是 预测 模型 计算 出 来 的 ， 
而 预测 模型 则 建立 在 数据 事实 的 基础 之 上 。 

民意 调查 结果 一 直 是 美国 总 统 大 选 时 最 倚重 的 数据 来 源 。 在 长 达 半 年 的 总 统 竞 选 活 
动 中 ,会 有 许多 组 织 通 过 不 同方 式 进行 大 量 调查 ,将 结果 汇总 成 民意 调查 数据 。 其 模型 
收集 整理 来 自 各 个 渠道 的 民意 调查 数据 ,根据 历史 表现 调整 它们 的 重要 性 ， 靠 大 量 数 据 
抹 平 单 次 调查 结果 中 可 能 出 现 的 偏差 ， 改善 模型 的 准确 性 并 作出 预测 。 收 集 、 处 理 、 运 算 、 
反馈 ， 循 环 往 复 ， 逐 渐 完 善 。 对 于 更 大 规模 的 数据 ， 总 统 候选 人 也 采用 了 相同 的 策略 ， 所 依 
赖 的 数据 来 源 不 仅 是 民意 调查 结果 ,还 涵盖 了 诸多 社交 网 站 和 公开 及 私有 的 数据 库 。 及 时 收 
集 这 些 数据 ,并且 帮 助 制定 策略 以 获得 更 多 选民 的 技术 ， 成 为 两 党 候选 人 的 重要 武器 。 

“我 们 喜欢 用 “武器 化 ”这 个 词 …… 用 数据 来 洞察 不 同 阵 营 的 选票 上 下 变化 。” 深 根 
分 析 公司 的 分 析 主管 大 卫 。 西 赖 特 说 ， 这 家 公司 为 美国 共和 党 候选 人 特 朗 普 提供 数据 分 
析 支 持 。 在 民主 党 中 扮演 相同 角色 的 是 目标 明智 公司 ,其 首席 执行 官 汤姆 。 伯 尼 尔 认为 : 
“ 随 着 对 大 数据 技术 的 重视 ， 在 今年 大 选中 将 不 再 会 出 现 奥巴马 那样 独占 优势 的 状况 ， 两 
党 的 技术 武器 变 得 更 加 旗 鼓 相当 。” 这 家 公司 正在 尝试 更 有 创新 意义 的 做 法 : 将 美国 超过 














2 亿 的 选民 资料 与 大 型 网 站 和 社交 网 络 上 的 个 人 账号 相 匹配 。 这 将 是 一 个 巨大 的 突破 ， 可 
以 将 网 络 行为 对 应 到 具体 的 个 体 ， 再 与 已 经 构成 的 、 庞 大 的 用 户 个 人 数据 相 结合 ， 最 终 
完全 由 准确 数据 来 驱动 竞选 策略 。 

传统 上 的 美国 总 统 竞 选 ， 候 选 人 代表 的 是 利益 集团 ， 但 是 在 大 数据 时 代 ， 每 一 个 选 
民 都 变 得 重要 起 来 。 由 数据 驱动 的 竟 选 策略 将 会 帮助 候选 人 筛选 出 吸引 特定 选民 的 最 佳 
行为 。 这 意味 着 电视 广告 的 时 段 和 内 容 、 网 站 广告 的 选择 和 展示 时 间 ， 甚 至 是 应 该 用 电 
子 邮件 还 是 电话 来 争取 这 位 选民 的 选票 都 能 确定 下 来 。 竟 选 双方 都 在 争取 那些 摇摆 的 投 
票 者 ， 这 些 人 可 能 因为 某 个 细微 的 举动 、 某 句 话 就 转投 另 一 个 阵营 。 摇 摆 投 票 者 们 的 意 
识 形态 、 价 值 观 和 哲学 各 有 不 同 ， 乐 于 接受 信息 的 方式 和 渠道 不 同 ， 对 候选 人 的 关注 点 
也 不 同 。 英 国 的 剑桥 分 析 公 司 与 共和 党 签订 了 价值 500 万 美元 的 订单 ， 帮 助 特 朗 普 分 析 可 
能 争取 到 的 摇摆 投票 者 ， 并 且 改 善 针对 他 们 的 信息 传递 方式 。 这 家 公司 的 素材 来 自 超市 
到 、 电 机 放生， 为 人 用 3 4000 000 人 
交办 类 月 记 并 且 设 计 专 门 的 方案 来 说 服 他 们 。 谁 将 会 是 下 一 任 美 国 
总 统 ， 总 统 竟 选 也 从 政治 经 验 和 民众 倾向 的 复杂 判 准 微妙 的 数字 游戏 。 候 选 
人 的 寺 术 顾问 通过 各 种 活动 、 数 据 库 和 社交 网 站 数据 库 ， 再 精益 求 精 地 改善 算 
法 ， 以 求 设计 出 最 可 能 赢得 选民 的 政策 、 说 辞 ， 细微 的 动作 和 外 套 的 颜色 。 这 是 
高 度 定制 化 的 竞选 策略 ， 背 后 隐藏 的 是 对 详细 资料 的 透彻 了 解 。 这 些 技 术 可 以 达到 
相当 精细 的 程度 ，2016 年 8 月， 共和 次 宣传 活动 中 ， 通 过 10 万 个 网 页 向 社交 网 站 








Facebook 的 用 户 展示 了 广告 , 而 网 页 都 瞄准 了 二 位 不 同类 型 的 选民 。 

3. 投 网 民 所 好 器、 

在 全 民 上 网 时 代 ， 起 全 不 下 9 站. 贡 失 他 们 的 需求 和 观点 也 不 是 先 
不 可 及 的 任务 。 证 成 为 新 的 主要 新 2013 一 2015 年 ， 通 过 Facebook 和 
We 闻 的 用 户 比 例 就 性 大 0% ， 在 年 轻 人 中 比例 更 高 。 甚 至 2016 
年 的 候选 人 元 de 人 和 天 全 的 多 方 对 放 ， 而 不 再 只 是 电视 上 3 小 
时 的 辩论 直 


在 2016 年 10 月 18 日 晚上 最 后 的 总 统 候选 人 辩论 时 ， 大 众 不 仅 关 注 辩 论 本 身 ， 同 时 
在 关注 以 Twitter 为 代表 的 社交 媒体 。 数 据 分 析 公 司 实时 收集 用 户 的 言论 ， 再 把 结论 发 给 
大 众 。 辩 论 刚 刚 结束 ， 结 果 就 已 经 出 现 : 与 特 度 普 有 关 的 言论 中 ， 带 有 负面 情绪 的 内 容 
占 62%; 与 希拉 里 有 关 的 言论 中 ， 带 有 正面 情绪 的 占 54%。 社 交 媒 体 的 互动 特性 使 收集 
观点 和 预测 投票 变 成 了 常规 的 实时 活动 ， 两 个 阵营 都 在 收集 各 大 社交 网 站 的 数据 ， 分析 
每 一 次 发 布 的 转发 和 评论 ， 再 仔细 者 虑 下 一 次 发 布 的 措 详 。 在 了 解 选民 信息 和 倾向 的 基 
础 上 ， 竞选 团队 和 选民 甚至 可 以 深入 地 一 对 一 沟通 ,从 而 加 深 彼此 关系 ,获得 更 多 选票 。 

即使 能 够 收集 选民 的 数据 ， 也 不 意味 着 会 得 出 准确 的 结果 。 在 科学 实验 中 ， 为 了 得 
出 客观 的 结果 ,观察 者 不 应 该 介入 系统 当中 ,但 选举 过 程 并 非 科 学 实验 ,而 对 数据 的 控 
气 和 展示 本 身 也 会 影响 到 整个 系统 。 每 次 预测 的 变化 都 会 引发 大 量 媒 体 报道 和 社交 网 络 
话题 ， 这 些 话 题 会 影响 选民 的 投票 意愿 ， 进 而 影响 预测 算法 的 结果 。 这 种 效应 可 能 会 导 
致 整个 系统 偏离 方向 。 

今天 人 们 对 网 络 生活 的 态度 、 对 信息 工具 的 依赖 以 及 对 网 络 渠 道 的 重视 程度 ， 与 几 
年 前 大 不 相同 。 信 息 技 术 正 在 影响 人 们 思考 和 作出 决策 的 方式 ， 而 “影响 他 人 ”也 已 经 
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有 了 截然 不 同 的 含义 。 这 让 2016 年 的 美国 总 统 大 选 变 成 了 全 新 的 开始 。 政 客 们 及 其 竞选 
团队 固然 会 更 了 解 选民 们 的 个 人 信息 ， 但 也 会 更 清楚 民众 的 愿望 。 数 据 虽 然 提 供 了 更 多 
请 导 大 众 的 工具 ， 但 也 让 政客 们 更 多 地 受制 于 民众 真正 的 需求 。 候 选 人 们 已 经 意识 到 ， 
在 他 们 身 处 的 世界 ,信息 正 变 得 更 公开 透明 。 技 术 搭 起 了 桥梁 ， 让 候选 人 和 选民 不 再 彼 
此 陌生 ， 候 选 人 会 更 认真 地 考虑 民众 的 想法 ， 而 选民 会 更 乐于 发 出 自己 的 声音 。 
(资料 来 源 : http: /www. jiemian. com/article/941181. html1，2016-11-08. ) 
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本 章 围绕 大 数据 的 隐私 与 安全 问题 ， 阅 述 了 大 数据 隐私 与 安全 的 定义 和 防护 策略 ， 
重点 论述 了 在 大 数据 应 用 的 整个 生命 周期 中 各 个 环节 的 安全 防护 于 术 。 在 大 数据 采集 阶 
段 ， 主 要 关注 传输 数据 的 机 密 性 保护 ; 在 大 数据 存储 阶段 ， kenntar 
和 备份 技术 ; 在 大 数据 挖 据 阶 段 ， ee 生计 算 和 处 理 ; 大 数据 的 
发 布 阶 段 为 大 数据 的 输出 环节 ,关注 的 重点 是 数据 审 。 APT 是 近年 来 兴起 的 热门 
攻击 技术 ， 具 有 危害 大 、 隐 藏 性 强 等 特点 ， 可 能 据 生命 周期 的 任意 环节 ， 对 
大 数据 的 可 用 性 和 机 密 性 造成 严重 影响 。 2 大 数据 下 的 防范 APT 策略 。 


全 xa Ra 
(1) 隐 私 保护 (2 (4)APT 
(5) 管 理 安全 3 
又 积 2 
1. 人 ， 


(1) 以 下 ( ) 不 是 对 APT 的 正确 描述 。 
A. 长 时 间 重 复 这 种 操作 
B. 适应 防御 者 来 产生 抵抗 能 力 
C. 无 目标 、 有 组 织 的 攻击 方式 
D. 维持 在 所 需 的 互动 水 平 以 执行 偷 取 信息 的 操作 






(2)( ) 是 指 系统 中 的 某 个 实体 假装 成 另 一 个 实体 ， 以 获取 系统 的 权限 和 特权 。 
A. 假冒 B. 授权 侵犯 
C. 旁 路 控制 D. 陷阱 
(3) 数 据 停留 在 ( ) 阶 段 的 时 间 最 长 ， 也 是 保障 数据 安全 的 一 个 关键 环节 。 
人 A. 采集 B. 挖 据 
C. 存储 D. 发 布 


(4) 下 列 有 关 云 数据 安全 的 说 法 中 ， 错 误 的 是 ( 5 
A. 享用 云 服 务 的 用 户 数据 存储 在 本 地 服务 器 上 
B. 服务 商 对 各 个 云端 的 各 类 用 户 数 据 具有 直接 获取 权 
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C. 黑客 只 要 能 攻破 一 点 就 能 窃取 或 者 毁坏 整个 数据 链 
D. 云 服务 商 缺 少 自我 约束 和 加 密 机 制 
(5) 信 息 在 传输 过 程 中 免 遭 未 经 授权 的 修改 ， 即 接收 到 的 信息 与 发 送 的 信息 完全 相同 
是 数据 传输 ( ) 的 要 求 。 





A. 真实 性 B. 完整 性 
C. 机 密 性 D. 防止 重 发 攻击 
(6) 在 防范 APT 时 ， 要 收集 和 记录 IT 系统 行为 ， 以 下 ( ”) 不 是 对 IT 行 为 的 分 类 。 
A. 主机 行为 B. 网 络 行为 
C. 物理 访问 行为 D. 个 人 隐私 信息 
2. 判断 题 
(1) 数 据 安全 具有 保密 性 、 完 整 性 和 可 用 性 三 个 基本 特点 。 ( 有 
(2 在 数据 传输 层次 上 对 存储 和 传输 的 信息 进行 安全 保护 是 全 的 基本 保障 。 


长 ) 


(3) 渗 入 威胁 包括 木马 病毒 和 陷阱。 a ( ) 
(4) 大 数据 应 用 过 程 分 为 采集 、 存 储 、 挖 气 、 环节 。 ( 
(5)SSL VPN 系统 的 组 成 按 结构 可 分 为 SD 服务 器 和 SSL VPN 客户 端 。 

> CC 
(6) 数 据 镜 像 就 是 保留 两 个 或 两 个 线 数 据 的 副本 。 ( ) 


3, 简 答 题 总 
(1) 简 述 大 数据 安全 的 特 上 汶 
(2) 大 数据 隐私 与 安全 后 隆 策略 有 哪些 ? WA 


(4) 大 数据 存 全 术 有 哪些 ? 


SA 义 和 特 征 。 说 < 






(6) 身 份 术 有 哪 几 种 ? 


可 
【第 8 章 习题 答案 】 





